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本書は， ARM プロセッサファミリの基礎知識からアーキテクチャの詳細，アセンブラ命令や最適化 
について.またコンパイラやデバッガ，開発環境など， ARM プロセッサ全般に関して解説する.さら 
に，実際に外販されているプロセッサを搭載した評価ボードなどを取り上げ，その上で動作する実際の 
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本書は，汎用オペレーティングシステムに関する一般的な知識と併せて， yITRON を例としたリア 
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本書では，組み込みシステムの開発に Linux を使うための技術要素を，入門者向けに，総覧的に解説 
している.内容としては，組み込み Linux の現状，開発環境，力ーネル/デバイスドライバ.ミドルウ 
エア，他 0 S からの移行などを盛り込んでいる.また，組み込み Linux に関連するキーマンへのインタ 
ビューも収録している. 
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が組み込まれ.さまざまな制御を行う組み込み機器である.本書では，これら組み込み機器を開発する 
ときのキーワードとなる，マルチタスク，リアルタイム，テスト，状態マシン.プライオリティインへ 
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うためのホストインターフェースの設計事例も解説する. 


































マイクロプロセツサ•ア■キテク升入 R 


RISC プロセッサの基礎か S 最新プロセッサのしくみまで 


techM 


Teolinology Interface 


中森章著 



CQ 出版紅 





1 クロックで複数の命令を同時に実行する 

並列処理の基本とスーパースカラ 

•スーパースカラの基本 

1 CPI から IPC へ . 

2複数の命令を並列実行する 

スーパースカラの概念 . 

3スーパースカラの実現 . 

4スーパースカラの命令発行を効率的に 

行うための「レジスタリネーミング」 . 

5分岐予測と投機実行 . 

•スーパースカラの実際 . 

6 SH -4. 

7 SH-X . 

8 R 10000 . 

9 PowerPC 750 . 

10 Powe 「4 のパイプライン . 

11 Pentium . 

12 Pentium n . 

13 Pentium 4. 

14 Pentium M . 

15 Hammer のパイプライン . 

16 Alpha 21264 . 

コラム 1 スーパースカラという名前の由来.…- 
コラム2 V R 4131 のパイプライン . 

第4 章 


Prologue 

コンピュータの誕生からプロセッサの発展まで 


マイクロプロセッサの歴史 . 4 

コラムバグの起源 . 5 

第1章 _ 

プ□セッサの構成要素と動作の基本 

プロセッサの基礎知識 . 15 

1コンピュータができること . 15 

2 MPU の構成要素 . 16 

3命令コード.オペランド. 

アドレッシングモード . 22 

コラムエンディアンの由来 . 18 

第2章 _ 

もっとも基本的なプロセッサ高速化技法 

バイプライン処理の概念と実際……28 

•パイプライン処理の概念 . 28 

1パイプラインとは . 28 

2パイプラインの理論 . 29 

3パイプラインを効率良く動かす各種の方法 . 37 

•パイプライン処理の概念 . 43 

4 R 3000 のパイプライン . 43 

5 SH -1/ SH -2/ SH -3, そして SH -5. 46 

6 ARM / StrongARM/XScale . 48 

7 V 8 ◦◦シリーズ . 50 

8 R 4000. 51 

9 Topaz (24 K ) のパイプライン . 52 

コラムウエーブパイプライン . 40 


第3章 


キヤツシユ構造の違し、力、ら， 680 x 0/ i 486/ R 4000 


のキャッシュの動作まで 

キャッシュのメカニズム . 103 

1キャッシュの内部構成 . 104 


4 4 4 56 0233682635825063 
5 ^ -5-5 -5-5 -6-6-6-6-6-6-7-7-8-8-8-9-9〇-57 






















































浮動小数点演算を高速にこなすための 

FPU のしくみ . 

1 EEE 754 とは . 

2浮動小数点演算命令の処理手順 . 

3浮動小数点演算で発生する例外 . 

4演算精度について . 

5浮動小数点演算処理の実際 . 

コラム開平計算 . 

Appendix 6 


2キャッシュへのアクセス方式 . 1〇9 

3リプレースメント方式 . 

4書き込み制御 . 111 

5キャッシュを支える各種機能 . 112 

6実際のプロセッサのキャッシュ構成 . 123 

コラムキャッシュのヒット率に関して . 11〇 

Appendix 1_ _ 

システムオンチップ時代のデバッグ手法 

エミュレーシヨン機能の基礎……127 
第5章_ 一 

仮想記憶/メモリ保護機能を実現するために 

MMU の基礎と実際 . 133 

1仮想記憶とは . 133 

2アドレス変換 . 134 

3 TLB . 135 

4 PTE(Page Table Entry ) の実例 . 139 

5 メモリ保護 . 143 

6 MMU の実例 . 145 

コラム1アドレス変換の効率化 . 142 

コラム2セグメント方式 . 153 

Appendix S . 

携帯機器ではとくに重要な 

低消費電力技術の原理 . 156 


第6章 _ 

外的要因と内的要因，ハードウェア割り込みとソフト 
ウェア割り込みの違いを理解する 

割り込みと例外の概念とその違い…166 


1 MPU における割り込みと例外 . 166 

2外部割り込みと例外の動作の概要 . 168 

3割り込みと例外処理の実際 . 174 

コラム1ソフトウェア割り込みと 

サブルーチンコール . 169 

コラム2割り込みとポーリング . 175 

コラム3割り込みとタスク切り替え . 184 

Appendix 3 _ 

クロック周波数の上限は何で決まるのか 

高速化技術の基礎 . 1日7 


第7章 _ 

マイク□プログラミング方式の CISC から VLIW の動 
作まで 

マイクロプログラミングと VLIW …196 


1マイク□プログラミングの概念 . 196 

2 VLIW の概念 . 201 

3 VLIW の実際（1 )— Itanium . 203 

4 VLIW の実際(2 )— Crusoe . 215 

コラム1 Itanium に関する個人的感想 . 212 

コラム2 Crusoe に関する個人的感想 . 221 


Appendix 4_ 

誤り検出/訂正符咢やシステムの多重化など 

高信頼性をサボートする機能……227 


演算回路をいかに高速に処理するか 

高速演算器の実際 . 285 

第 10 章_ 

Java アプリケーシヨンを高速に実行するための 

Java プロセッサの特徴と実際…295 

1 Sun の Java プ□セッサ . 295 

2 Java アクセ ラレータ . 301 

3 Java プロセッサの今後 . 310 

第1 1 L 1 _ 

CISC の反省から RISC へ， そして RISC もまた複雑 
化し，その将来は…… 

命令セツトアーキテクチャの変遷…312 


1コンピュータアーキテクチャとは . 312 

2 CISC の命令セット . 313 

3崩れた神話—— RISC へ至る道 . 318 

4誕生初期の RISC . 320 

5過渡期の RISC . 324 

6現在の RISC . 328 

7 SIMD 命令/暗号化処理命令 . 330 

8 MPU の今後 . 335 

コラム現在における CISC 命令セットの意義……329 

Epilogue _ 

研究段階から実用化へ，そして現在残っているのは…… 

RISC プロセッサ興亡史 . 337 

RISC プロセッサの興亡 . 337 


第8章_ 

処理性能を上げるための最後の切り札 


マルチプロセッサの基礎 . 231 

1マルチプ□セッサの基礎 . 231 

2マルチプロセッサのキャッシュ制御 . 234 

3プロセス間の相互通信の方法 . 236 

4マルチプロセッサの構造 . 243 

5マルチプロセッサ結合の実際 . 247 


Appendix 5 _ 

コンフィギュアラブルの手法と実プロセッサの構成 

コンフィギュアラブルプロセッサの概略…254 


1コンフィギュアラブルプロセッサの分類 . 254 

2コンフィギュアラブルプロセッサの実際 

-- 静的リコンフィギュアラブル . 258 

3コンフィギュアラブルプロセッサの実際 

—動的リコンフィギュアラブル . 265 


第9章 


3 0 3 5 7 7 3 
て7 7 7 7フ8 
7 2 2 2 2 2 2 

2 


あとがき 

参考文献 


350 

350 



















































































そもそも マイクロプロセッサ （MPU) とは何なのだ 
ろうか.多くの人は， MPU が Micro Processing Unit 
(小型処理装置）の略語であり，コンピュータの中心的 
な動作を制御する LSI であることを知っている.その 
意味で CPU(Central Processing Unit :中央処理装置） 
と呼ばれることもある.本書では一部を除き MPU と 
呼ぼう. 

では，なぜ MPU に8ビット，16ビットあるいは32 
ビットという種類があるのか，なぜ16ビット MPU よ 
りも32ビット MPU のほうが処理性能が優れているの 
か，という点について知っている人は意外と少ないの 
ではないだろうか. 

これを明らかにするには，大型計算機の歴史から振 
り返ってみる必要がある.歴史を探ることで， MPU 
の未来もおのずと見えてくるのではないだろうか. 

• コンピュータ(計算機）という発想はいつから？ 

計算の機械化は古くから考案されてきた.16世紀 
にフランスの数学者のパスカル (Blaise Pascal) が考案 
したパスカリーヌ （Pascaline) をはじめとして，ドイ 
ツの数学者であるライプニッツ (Gottfried Wilhelm 
Leibniz) がパスカリーヌを拡張した計算機を完成させ 
ている. 

現在のイメージに近いコンピュータを最初に構想し 
たのは，19世紀のイギリスの数学者であるバべッジ 
(Charles Babbage) といわれている.彼は1819年頃か 
ら，高信頼度の数表を階差法により作成する歯車式の 
階差機関の作成に着手した.1832年には試作機が作 
成されたが，政治的な理由で階差機関の開発は成功し 
なかった. 

その直後，階差機関の計算能力を上げる目的で，バ 
ベッジは解析機関を発案した.その複雑なメカニズム 
を実現するために，データ（記憶領域）と演算を分離す 


ることが考えられた.データから独立した演算器は， 
一連の指令（プログラム）を与えることで，種々の計算 
に対応できた.これがプログラム制御のはしりである. 

階差機関は，階差法という計算に特定された専用マ 
シンであったが，解析機関はある程度の汎用性をもっ 
ていた.これをもって，解析機関を最初のコンピュー 
夕とみなす向きもあるが，プログラム内蔵方式ではな 
かったし，条件分岐機構をもっていないという意味で 
は，コンピュータではないという意見もある. 

その後，バべッジの業績は何人かの研究者に受け継 
がれたが，どれも試作程度で終わっている.パべッジ 
以後，1940年代までコンピュータ開発の表立った動 
きはなかったというのが定説である.この期間は100 
年の空白といわれている. 

もっとも，これは米国を中心とした史観であり，実 
際には1930年代に機械式やリレー式の計算機がドイ 
ツのツー ゼ (Konrad Zuse) らによって研究/試作され， 
またシュレイヤー ( Schreyer ) やアタナソフ00 hn V . 
Atanasoff) らが真空管方式によって開発を始めている. 
ツーゼのコンピュータは rzi J , アタナソフのコンビ 
ュータは 「ABC」 として歴史に名を残して いる. 

チューリング （Alan Turing) は1936年にチューリ 
ング•マシンに関する論文を発表し，これが現代コン 
ピュータの基礎理論となって いる. チューリングもま 
た，第二次世界大戦中に暗号を解読するための「ボン 
ベ」というチューリング•マシンを応用した機械（コ 
ンピュータの原点）を開発して いる. ボンベはリレー 
を使用していたが，真空管を使用した電子計算機もチ 
ューリングの提案で開発された.これも暗号解読用で 
ある. 

リレーは電磁石でスイッチを 0N/0FF するものだ 
が，電気で同様の処理を行う真空管を使用すると1，000 
倍近い計算速度を得ることができる.これは1943年 
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に COLOSSUS という計算機として実現している • 

これはイギリスの話であったが，アメリカでも同時 
期に真空管を使用 した ENIAC(Electronic Numerical 
Integrator and Computer) という計算機が開発され 
ていた. ENIAC は実戦には間に合わなかったが， 
COLOSSUS は戦時中稼働していた唯一のコンピュー 
夕として，後世に名を残している.それは，戦後も 30 
年にわたって諜報活動に活用されるが，当時は機密事 
項として関係者が知るのみであった. 

• アタナソフのコンピュータ—— ABC マシン 

1970 年頃までの定説では，世界最初のコンピュー 
夕は モークリー (John W. Mauchly) と エツ カート （ J. 
Presper Eckert) およびゴールドスタイン (Herman H. 
Goldstine) によって 1945 年に開発された ENIAC とい 
うことになっていた.その説に一石を投じたのが， 
1937 年からアタナソフとべリー （Clifford E. Berry) の 
開発した ABC (Atanasoff-Berry-Computer) マシンで 
ある.これは， ガウスの 消去法を想定した真空管式の 
計算機で， 1942 年にはほとんど完成していたといわ 
れる.現在では， この ABC マシンこそが ENIAC に先 
立つ世界最初のコンピュータといわれることが多い. 

もともとアタナソフの業績は世間から忘れ去られて 
いた.それを白日の下に引き戻したのは， 1960 年代 
に始まった， ENIAC の基本特許に関する係争である. 
この裁判で ENIAC の特許が無効になったが，その根 
拠の 一つと して，モークリーがアタナソフから 
ENIAC の基本原理を得ていたということが挙げられ 
た. 

事実， 1941 年にモークリーはアタナソフを訪問し 
て ABC マシンを見学していた.かくしてアタナソフ 
の名前は一躍クローズアップされることになる.しか 
し， ABC マシンは 29 変数までの連立一次方程式の解 


Prologue マイク□プロセッサの歴史 

■ _:_こ:：：: . 



写真 A ミシガン大学に展示されている ENIAC 

(写真提供：近藤和彦氏） 


法機にすぎず，ブログラム内蔵という観点から見ても 
コンピュータと呼ぶにはふさわしくない. 

• 真空管のコンピュータ 

初期のコンピュータは，人間が手計算でやっていて 
はとても終了しないほど多量の計算を高速に行わせる 
ために開発された.昔はそれほどの需要があったわけ 
ではないが，第二次世界大戦の頃になると大規模な計 
算の必要性が顕在化してきた.その主たる用途が軍事 
目的であったことは否めない. 

現在のコンピュータのはしりは 1945 年にペンシル 
バニア大学で作られた ENIAC といわれているが，こ 
れは大砲の弾道計算をするために作られたコンピュー 
夕である.その処理能力は現在のコンピュータと比べ 
てはかわいそうなくらい低く，どちらかというとプロ 
グラム電卓といった感が強かったようだ. 

ENIAC は，ある程度のプログラムを内蔵すること 
もできたし，条件分岐機構ももっていたので，最初の 
コンピュータという栄誉を受ける資格は十分にある. 


mrnm バグの起源 


コンピュータのソフトウエアやハードウエアの誤り 

(不具合）をバグ（虫）というが，この起源を ENIAC に求 
める説がある.•蛾がコンピュータの真空管の間に紛れ込 
んで誤動作を誘発させたというのだ. 

これは昔よく言われたエピソードであるが，現実は少 
し事情が異なる.正式には， COBOL の開発者であり世 
界でもっとも有名な プログラマ であるグレース.ホツ 


パー （Grace Murray Hopper) が，初めてバグという言 
葉を使ったとされている. 

彼女がハーバード大学で計算機 (Mark-II) の開発に携 
わっていたとき，電子回路に蛾が迷い込んで故障したの 
が発端である.その蛾は記録簿に貼り付けられて保存さ 
れており，現在はワシントン D.C. のスミソニアン博物館 
で見ることができるという. 
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ただし，これを主張する学者は COLOSSUS の存在を 
無視しているようにも思える.ただ， COLOSSUS は 
暗号解読専用という観点から，汎用コンピュータとは 
認めてもらえないのだ. 

1989年，米国のスミソニアン協会がアメリカ歴史 
博物館でコンピュータ開発の歴史展示を試みたとき， 
コンピュータの発明者は モーク リーと エッカート にな 
っていた.それが政治的な圧力でうやむやな表現に変 
更された.その中で，アタナソフは最初のコンピュー 
夕を発明したが動作させることはできなかった，と説 
明されたという. 

ENIAC の本体は， 30 m x 90 m x 3 m の筐体の中に 
18,000本の真空管と10,000個のコンデンサを詰め込ん 
だものである.このため， ENIAC を設置するために 
はまるまる一部屋分の スペースが 必要だった.また， 
多くの真空管を動作させるために機関車並みの電力が 
必要だったという. 

それでも，電気式の真空管を使用するため，計算機 
の処理能力は機械式のリレーに比べると飛躍的に向上 
した.しかし，真空管を使っているために「図体がで 
かい」，「熱い丄「壊れやすい」というのが当時のコン 
ピュータの常識だったようだ.この真空管の問題を何 
とかしない限り，コンピュータの発展はありえなか 
った. 

• フォン* ノイマンに対する誤解 

フオン•ノイマン (Jhon von Neumann ) は，今日の 
コンピュータアーキテクチャの基礎を創造した人物と 
して広く知れ渡っている.事実，プログラム内蔵を基 
本とする今日のコンピュータは「ノイマン型」といわ 
れている.しかし，これはモークリーやエッカートの 
名誉を著しく傷つけるものである. 

1944年の初め， ENIAC の設計が始まってから18か 
月が過ぎた頃，フォン•ノイマンはゴールドスタイン 
と会う機会を得た.そこで，フォン•ノイマンはゴー 
ルドスタインが関わっていた現在進行中の ENIAC の 
計画に非常に興味を覚えた.当時フォン•ノイマン 
は，原子爆弾を開発するマンハッタン計画の顧問をし 
ていたが， この 戦争に役立ちそうなコンピュータ のこ 
とは知らされていなかった.これは， ENIAC のスポ 
ンサーともいえる国防研究委員会 （NDRC : National 
Defense Research Committee ) が ENIAC を信用して 
おらず，取るに足らないものと考えていたからである. 
しかし，フォン•ノイマンは非常に興味を覚え，1944 


年9月に ENIAC の開発現場を訪れ， ENIAC の秘密情 
報へのアクセスが許された. 

さて， ENIAC にはプログラミングが難しい，メモリ 
が少量しかないという欠点があった.関係者の多くは 
ENIAC が完成するかなり前から，後継機種の EDVAC 
(Electronic Discrete Variable Automatic Computer ) 
の議論を始めている.そして，1945年3月，フォン. 
ノイマン，モークリー，エッカート，ゴールドスタイ 
ンらが EDVAC の設計に関して議論した記録が，いわ 
ゆる 「 EDVAC レポート」として，フォン.ノイマン 
の単独名で，機密事項であるにもかかわらず，世界の 
コンピュータ技術者の間に広く流布された. 

フォン • ノイマンが EDVAC の設計に参加する前に 
プログラム内蔵方式は考案されていた.しかし， この 
文書により，フォン•ノイマンがプログラム内蔵方式 
のコンピュータの発明者として誤って伝わってしまっ 
たのである.フォン.ノイマンは発明者ではないが， 
プログラム内蔵方式を論理的に明確にして発展させた 
業績は認めるべきであろう. 

EDVAC は，関係者間の意見の対立により大幅に開 
発が遅れ，ついに頓挫してしまう.一方，フォン•ノ 
イマンはプリンストン大学で新しいコンピュータの開 
発を指導することになる.そんな中，世界最初のプロ 
グラム内蔵方式のコンピュータとしての栄誉を勝ち取 
ったのは， EDVAC の影響下にイギリスのケンブリッ 
ジ大学でウイルクス (Maulice Wilkes ) により製作され， 
1949年5月に稼働を始めた EDSAC(Electronic Delay 
Storage Automatic Calculator ) である.この名称は 
EDVAC を意識して付けられたという.なお，ウイル 
クスはマイクロプログラミングの提唱者としても有名 
である. 

さて，これ以後も計算機の試作は星の数ほど行われ， 
IBM などの 大型 計算機や スーパーコンピュータの開 
発へとっながっていくのだが，その歴史を追うことは 
筆者の意図ではない.今後はマイクロプロセッサの進 
歩を主に見て いこう . 

• トランジスタが登場した！ 

コンピュータにとっての朗報は，1947年も終わり 
に近付いたクリスマスの2日前に訪れた.ベル研究所 
のウイリアム•ショックリー （William Shockley ) ，ジ 
ヨン. バーデイー ン （John Bardeen ) , ウォルター. 
ブラッテン （Walter Brattain ) によってトランジスタ 
が発明されたのだ. 


Prologue マイク□プロセッサの歴史 


言うまでもなくトランジスタは，半導体産業におい 
て20世紀最大の発明である.トランジスタは真空管 
と違って熱をもたないし，壊れにくく，真空管より高 
速に動作する.そして，サイズが小さいのがなにより 
の利点だった.このトランジスタは，ラジオや補聴器 
など多くの電子機器の中心的デバイスとして確固たる 
地位を築いていくことになる. 

当然，トランジスタを用いたコンピュータも作られ 
た. FORTRAN や COBOL といった高級言語のコン 
パイラが登場したのは，トランジスタのコンピュータ 
が全盛になる1950年代の後半から1960年代にかけて 
のことだった.この時期の代表的なコンピュータとし 
て， IBM の7070や7090がある.まだ，マイクロプロ 
セッサは誕生していない. 

さて，トランジスタを用いてコンピュータを作る場 
合，最大の問題点は回路規模が大きく複雑であるとい 
うことだった.数百ものトランジスタやコンデンサを 
はんだ付けしていく作業は人間の手によっていたが， 
それでいて十分な信頼性を得るのは至難の技だった. 

その障壁を乗り越えてコンピュータを作ったのだか 
ら，当時のコンピュータメーカーの頑張りには脱帽す 
る.しかし，力まかせに作るコンピュータにはおのず 
と限界がある，人類には理論的には可能であっても， 
実装技術の未熟さゆえに到達できない夢がいくつもあ 
ったのだ. 

• 集積化の時代 

コンピュータにとって第2の転機は，1959年に訪れ 
た . Texas Insturuments ( TI ) の ジャック. キルビー 
(Jack Killbey ) と Intel の創始者の一人であるロバー 
卜•ノイス (Robert Noyce ) が，シリコンウェハ上に 
抵抗やコンデンサを作るというアイデアを実現させた 
からだ.これが 1 C (集積回路）の誕生である. 

それまでは構成要素が独立した多くの部品であった 
ため，それらを接続する困難さが生じる.一つのチッ 
プに構成要素を作り込んでやれば接続の手間が省ける 
ばかりでなく，非常に小型化できるというのがその基 
本的なアイデアである.もちろん，思い付きだけで 
1 C を製造できるわけではないが，とにかく，数々の 
製造上の困難を乗り越えた奇跡のチップとして 1 C が 
誕生した. 

そして， 1 C が登場してから10年後の1969年には， 
月面上に小さいけれど人類にとっては大きな一歩を印 
すことになった.あのアポロ計画である.しかし，合 


理的なアメリカ人が道楽 (?!) で月まで行くわけはない. 
その背後に，宇宙の軍事利用という暗い影を宿してい 
たことは厳然たる事実である. 

しかし，その技術が民間用に転換されてきて，われ 
われ一般人もその恩恵に浴すことができたのは一筋の 
光明かもしれない. 1 C が初めて応用されたのは補聴 
器だったというし， 1 C がなければ現在のように信頼 
性の高いテレビ，ビデオ， DVD プレーヤなどの AV 
機器を手にすることもなかったはずである. 

•マイク□プロセッサの鼓動 

マイクロプロセッサの 誕生には，日本が大きく関わ 
っている . なぜなら， マイクロプロセッサの 物語は東 
京に端を発するからである. 

1968年，日本の事務機器メーカーであるビジコン 
社は画期的なプリンタ付き電卓を作った.この電卓は 
プログラムを ROM から読み出して実行するという， 
現在のコンピュータに近い形式を採用していた.しか 
もこの電卓は， ROM の内容を変更するだけでまった 
く別の電卓を作ることができるようになっていた. 

1969年に入ると，電卓の高性能化，多様化，低価 
格化，高信頼化などの要請から，電卓を LSI 化する計 
画が生まれた.しかし悲しいことに，日本には電卓程 
度の複雑さをもつ回路を LSI 化する技術すらなかっ 
た.そこでビジコン社は， Intel に援助を求めた.そ 
のとき Intel は，ビジコン社側の示す LSI の規模が他 
社の電卓用 LSI に比べて大きい（約16個の異なるチッ 
プを使用する）ので商売にならないと判断し，代わり 
に4ビットの MPU というアイデアを提示してきた（本 
音はチップ1個分の開発コストしかなかった）. 

これは，電卓のプログラムに使われていた命令をも 
っと低レベルの機械語レベルに引き下げて，汎用性を 
もった LSI をねらったものである.ビジコン社はもと 
もとプログラム方式の電卓を作っていた経験から，こ 
の新しいアイデアをすんなりと受け入れることができ 
た.結果として，ビジコン社と Intel の折衷案で，世 
界初の4ビット MPU が作られることになったという. 

電卓用の LSI に見られるように，当時の LSI の多く 
はカスタムデサイン（固有の目的のための設計）によっ 
て作られていた..特殊な目的をもった LSI を数多く短 
期間に製造していくためには，プログラム可能な汎用 
LSI というアブローチは非常に有用な解答だった•こ 
れが，ゆくゆくは「部品としてのコンピュータ」とい 
う市場を産むことになる. 
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写真 B 初のマイクロプロセッサ 4004 (写真提供：嶋正利氏) 


今では Intel の主要製品となっている MPU である 
が，当初 Intel の幹部はその将来性に気付いていなか 
った.電卓の部品という認識で，メモリ事業が主体の 
Intel にとっては，サイドビジネスの一環でしかなか 
った. MPU が Intel の未来を切り開く存在であること 
に気付くのは，発表から15年も経った後だという. 

Intel が4004の所有権をもつようにしたのは，積極 
的な理由からではなかった. 4004の開発中に電卓事 
業が不振になり，ビジコン社側が契約料の大幅値下げ 
を要求してきたためだ. Intel は，電卓市場以外にお 
いても4004の外販権を無料で提供することを条件に， 
その要求を呑んだ. 

かくして，1971年 n 月15日, Intel は4004を世界 
初のマイクロプロセッサとして発表した.これがマイ 
クロプロセッサの誕生である.当時の Intel の最高経 
営責任者は，「人類史上でもっとも革命的な製品の一 
つ」とコメントしたらしい.しかし，多くの人々は 
4004のコンセプトを理解できず， Intel を脅威と思う 
人はほとんどいなかった.革新的な製品の最初は，お 
しなべてこんなものかもしれない. 

4004は 750 kHz のクロックで動作し，1命令の実行 
には最低8クロックが必要だった.これは，1クロッ 
ク実行が当然という現在の RISC 技術から見れば隔世 
の感がある. 4004のクロックに関しては， Intel の公 
式資料では 108 kHz となっているが，これは誤りであ 
る. 4004のニュース.リリースで，命令の実行速度 
が 10.8" s となっていたのを勘違いしたものと思われ 
る.この後に登場する8008の動作周波数も 200 kHz と 
なっている文献が多いが， 500 kHz の誤りである. 


籲マイクロプロセッサの展開 

1972年4月1日， Intel は4004のアーキテクチャを 
拡張して8ビットデータ（文字データ）を扱えるように 
した8ビット MPU の8008を発表した.動作周波数は 
500 kHz だった（後に 800 kHz 品も開発される）. 8008 
は，テキサスの端末メーカーであるデータポイント社 
からの受注である.しかし，データポイント社が契約 
料を払えなかったため， Intel は8008の命令セットの 
使用権とチップの外販権を獲得する.のちの x 86 命令 
セットの萌芽である. 

8008は4004の後継と説明されることが多いが，実 
は4004の開発中にその技術者を引き抜いて開発した 
という.その意味では，4004と同世代の兄弟チップ 
である. 

そして1974年，8008の改良版である，同じ8ビッ 
卜 MPU の8080が発表されるにあたって，マイクロプ 
ロセッサが本格的に市場に受け入れられるようになっ 
た.そして人々は，マイクロプロセッサによって多く 
の製品に知能を与えることができると考え，無数の新 
しい応用を夢に描いていった. 

約55年前，部屋いっぱいの設置場所と機関車並み 
の電力を必要としたコンピュータが小指大(現在の規 
模では親指大というほうが適切か）のマイクロプロセ 
ッサへと凝縮されることで，コンピュータは日常生活 
の基本的な枠組みの中へ浸透していくようになった. 

とはいえ，マイクロプロセッサの誕生が電卓用 LSI 
をきっかけとしたように，初期におけるマイクロプロ 
セッサの役割は，既存の制御機器の置き換えが主目的 
だった.この場合，とにかく動くことが第一で，プロ 
グラムの生産性や性能は二の次だった. 

小型で動けばよいという時代を過ぎると，当然のこ 
とながら，マイクロプロセッサは性能を要求されるこ 
とになる.そこで，マイクロプロセッサは8，16，32 
とビット数を増やしながら大型計算機の進歩を大急ぎ 
で追いかけていった. 

そして，現在の32ビットマイクロプロセッサの処 
理能力は大型計算機の処理能力に近づき（ある意味で 
は凌駕し），コンピュータごとに専用の MPU を使用 
していたミニコンの MPU すら駆逐してしまった感が 
ある. 

また，その応用分野もエンジニアリングワークス 
テーシ ヨン，画像処理システム，音声処理システム， 
ロボット制御，プロセス制御，人工知能システムなど， 
多種多様の分野に広がるようになった. 
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•「もし」の世界……世界最初の MPU は日本製だつ 

たかちしれない 

上述したとおり， MPU の歴史は，1971年の Intel の 
4004の発売に始まったといわれている.しかし， 
4004に遅れること数か月，日本でも " PD 700 という2 
チップ構成の MPU が開発されていることはあまり知 
られていない. 

これは，シャープが コカ.コーラ 社から依頼を受け 
て論理設計を行い， NEC が製造した4ビットのプロ 
セッサである.シャープは，最初，三菱電機に製造を 
依頼したのだが，これが見事に失敗してしまう.そし 
て， NEC にお鉢が回ってきて日の目を見たわけだ. 
もし，シャープが初めから NEC に依頼をしていれば， 
世界最初の MPU は日本製ということになっていたか 
もしれない. 

その後， NEC が " PD 700 の権利を買い取り，1チッ 
プの " COM 4 として発売された.この MPU はキャッ 
シユレジスタを中心に広く応用されたという.どちら 
かといえば Intel よりも Motorola の MPU に近い命令 
セットで，使い勝手が良かったらしい. 

4ビット MPU は，その後の低価格化の要求から，1 
チップマイコンが市場の中心になっていき，家電製品 
に採用されるようになる.この分野は日本の独壇上で 
ある.1チップマイコンは4ビット，8ビットと独自の 
進化を遂げていくが，16ビット以降になると米国製 
の MPU に置き換えられていく運命をたどった. 

日本の半導体史における国産第一号のマイコンは， 
1973年に発表された東芝製の TLCS -12 ということに 
なっている場合もある.これは最初から12ビットプ 
ロセッサであったことが画期的である. Intel では8ビ 
ットの8008が発表されたばかりである. 

TLCS -12 は米国フォード社の思惑が絡んで開発さ 
れた.1970年に米国では自動車の排ガスを規制する 
マスキー 法が成立し，自動車メーカーはその対応を迫 
られていた.東芝とフォードは，協力してエンジン制 
御の自動化をマイクロプロセッサに託したのだ. 

• 32ビット MPU の条件 

MPU における8ビット，16ビット，32ビットとい 
うビット数の増大は，扱うプログラムの規模が大きく 
なったことを意味する.プログラムが複雑になるにつ 
れて，コードサイズは大きくなる.また，大量のデー 
夕を扱うためには，それぞれのデータにアドレス付け 
ができなければならない•バイトアドレスを採用する 


Prologue マイク□プ□セツサの歴史 

. . ：...：• . . 


場合，アドレス空間の大きさはアドレス長が4ビット 
で16バイト，8ビットで256バイト，16ビットで 64 K 
バイト，32ビットで 4 G バイトである. 

2〇年前は，32ビット長より大きいアドレスを扱う 
ようなマイクロプロセッサは登場していない.さすが 
に， MPU のアーキテクチャ設計者たちは，アドレス 
空間は 4 G バイトもあれば十分だと思ったのだろう. 
32ビット MPU である x 86 系のアドレス空間は 64 T バ 
イト （48 ビット）と言われているが，セグメント切り 
替えが入るので実質は 4 G バイトである. 

アドレス空間は 4 G バイトもあれば十分だが，初期 
の大型計算機は経済的な理由（メモリが高価だった）か 
ら MPU のアドレスバスを32本用意することはナンセ 
ンスだった.また， MPU のピン数が増えると周辺回 
路が複雑になるので， MPU チップから出ているアド 
レスや データの ピン数は必要最少限に抑えられてい 
た.そして，制限されたアドレス空間を有効に使うた 
めの技術として仮想記憶という方法が考案された- 
どんなに大規模なプログラムであっても， プログラ 
ムの すべての 部分を同時に実行することはない.動的 
に眺めれば，プログラムは主記憶上のある小さな領域 
でしか実行されていない. データ も瞬間瞬間に扱う量 
はわずかである. 

仮想記憶は，このようなプログラムの局所性を考慮 
し，プログラムのうち，現在実行していない部分は， 
ハードディスクなどの2次記憶にしまっておこうとす 
るアイデアである.ディスク上のプログラムは必要が 
あれば主記憶にロードし，その代わり，前に主記憶に 
あったプログラムをディスクに退避する. 

そして，この仮想記憶を行う場合に必要になるのが 
アドレス変換である.アドレス変換は，プログラムの 
中で使われているアドレス（論理アドレス，または仮 
想アドレスと言う）を実際の主記憶に収まる範囲のア 
ドレス（物理アドレス，または実アドレスと言う）に見 
せかけるメカニズムである. 

そして，このアドレス変換を行うデバイスが MMU 
(Memory Management Unit ) である. 32ビット以前 
の MPU では， MPU に外付けする MMU を使う場合が 
多かったが，最近の32ビット MPU では MMU を内蔵 
するのが常識になってきている. 

• マルチタスクと仮想記憶 

論理アドレスが32ビット，物理アドレスが32ビッ 
卜ある MPU に，なぜ仮想記憶が必要か疑問に思う人 
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がいるかもしれない.実は，仮想記憶には少ない記憶 
容量を大きくみせかけて使用するというほかにも大き 
な意義がある. 

すなわち，マルチタスクを行う場合，各タスク（プ 
ログラム）ごとに 4 G バイトのアドレス空間を提供する 
という役割を果たす.マルチタスクの環境下では，•主 
記憶上には多くのタスクが混在して置かれている•主 
記憶上にあるプログラムしか実行できないというの 
は，フォン.ノイマン型 MPU の宿命である.すべて 
のプログラムは，たとえば，〇番地（論理アドレス）か 
ら開始されているが，そのプログラムが実際にロード 
されている主記憶は〇番地（物理アドレス）とは限らな 
い.アドレス変換によって，それぞれのタスクが置か 
れている主記憶領域を〇番地から始まっているように 
みせかけているために，すべてがうまくいっているよ 
うに見える. 

ここで，プログラムを主記憶上のどの位置に持って 
きても動作させることができる，ポジションインディ 
ペンデントという言葉がある.これは，規模が小さく， 
MMU を内蔵して いない MPU においてマルチタスク 
を行わせるための苦肉の策とみることもできる•また， 
セグメント方式もセグメントの ベース アドレスに対し 
てはポジションインディペンデントであり，これも広 
義の仮想記憶といえる. 

とにかく，マルチタスクを行う場合，それぞれの夕 
スクごとに主記憶とディスクの入れ替え（スワッピン 
グという）を行ってやれば，タスクごとに 4 G バイトの 
アドレス空間を割り当てることができるというわけで 
ある. 

ここで，スワッピングや論理アドレスと物理アドレ 
スを具体的に対応付けるのは OS の役目である.この 
意味で，32ビット MPU は OS の介在を強要する…と 
いうか， OS が必須な MPU である. 

• 32ビット MPU に要求されるアーキテクチャ 

このように眺めてくると，32ビット MPU に要求さ 
れる基本的なアーキテクチャが浮き上がってくる.そ 
れは次の三つである. 

(1) 大規模なプログラムに対応できるように，論理ア 
ドレスとして32ビットを提供すること（レジスタ 
はボインタとして使用するので32ビットでなけ 
ればならない） 

(2) 大規模なプログラムは高級言語で記述されること 
が多いので，高級言語のサポートを容易にする 


こと 

(3) 仮想記憶が常識になるので， OS のサポートを容 
易にすること. 

これらは，現在主流の RISC のアーキテクチャとは 
相容れない部分があるかもしれないが， RISC 以前の 
MPU はこれらに基づいていたことは間違いない. 

これらにさらに付け加えるならば， MPU の汎用化 
が進んでくると，従来の整数演算に加えて浮動小数点 
演算が行えることも必要になってくる.また， 一つの 
MPU だけで処理を行うのでなく，複数の MPU が協 
力 して処理を行うことで処理性能をあげる マルチ プロ 
セッサへの 対応も必要になってくる. 

今後，32ビット MPU を設計する場合，これらの機 
能のサポートも重要になってくるに違いない. （2) に 
関しては，人によっては異論があるだろう. コンパイ 
ラの性能がよければ， MPU の命令セットはどうでも 
よいという考え方である.これは， CISC と RISC の 
優位性の議論に密接に関係する. 

• 32 ビット MPU のハードウエアの特徴 

以上のようなアーキテクチャの拡張から，自然発 
生してくる特徴を有しているだけでなく， 32 ビット 
MPU では個々の命令の処理速度を上げるために，従 
来は大型計算機で使われてきたハードゥェァ技術を採 
用していることも大きな特徴である. 

8 ビットや 16 ビット MPU の頃は，実装技術の制限 
によって実現できなかった機能が， 32 ビット MPU で 
はどんどん取り入れられている.これらの技術は，具 
体的にはパイプライン制御とキャッシユメモリの内蔵 
である. 

(1) パイプライン制御 

MPU の命令の処理を大雑把にみると，「命令フェッ 
チ」，「命令デコード」，「実行」，そしてその命令の動 
作により「ライトバック」などの処理が発生する.従 
来の 8 ビットや 16 ビット MPU では，これらの処理を 
直列的に行っていたので，一つの命令を実行するため 
に 三つ あるいは 四つ 以上の段階を経なければならなか 
った.しかし，ある命令を実行しているときに，次の 
命令のデコードをすることは可能である.また，ある 
命令をデコードしているときに，次の命令をフェッチ 
することも可能である.このように「フェッチ」，「デ 
コード」，「実行」という命令の処理の段階は並列に実 
行することが可能なのだ.この命令の並列処理をパイ 
プライン制御という. 
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パイプライン制御を行えば，ある命令のフェッチや 
デコードは他の命令の実行時間に隠れてしまうので， 
命令のフェッチとデコードの時間を0にすることがで 
きるというわけである. 

パイプラインの段階が，「フェッチ」，「デコード」， 
「実行」の三つに分かれているとき，それを3ステー 
ジまたは3段パイプラインと呼ぶ. 3段パイプライン 
は，単純に考えれば，パイプラインを行わない場合の 
3倍の速度で命令の処理をすることができる.しかし， 
実際の32ビット MPU のパイプラインはそれ以上の5 
段〜7段のパイプラインを行っており，非常に高性能 
を実現している.なお，パイプライン制御を行う 
MPU では「命令フェッチ」のことを「先取り」をす 
るという意味からプリフェッチと呼ぶ. 

ところで，パイプライン制御は流れ作業のバケツリ 
レーみたいなものであるから，どこかの段階で乱れが 
生じると，その処理効率が極端に低下する. MPU の 
世界では，パイプラインの乱れは主として分岐命令の 
実行時に引き起こされる.分岐命令が実行されると， 
そのときに「フヱッチ」，「デコード」している命令が 
むだになり，分岐先からフェッチし直さなければなら 
ないので性能が低下するのである. 

このため，分岐命令の高速化と分岐によるパイプラ 
インの乱れの早期回復は，パイプライン制御を行う 
MPU の課題の一つとなっている.その解答として， 
最近では分岐先バッファや分岐予測機構を採用する 
MPU も登場しているが，これらの技術もまた大型計 
算機の流れを汲むものである. 

(2) キャッシュメモリの内蔵 

初めて大型計算機に仮想記憶が採用された当時と比 
較すれば，現在はメモリの値段が格段に安くなってい 
る.しかし，32ビット MPU が最大性能を出すために 
想定されている高速メモリは，まだまだ高価だ . MPU 
に実力があっても， MPU がメモリの速度に足を引っ 
張られていたのではせっかくの32ビットの性能も活 
かせない.そこで MPU 内に，たとえ少量でも高速な 
メモリを備え，外部の主記憶の内容を MPU 内のメモ 
リに コピーして 持つというアイデアが考案された.こ 
れがキャッシュメモリである. 

大型計算機の世界では常識だったキャッシュメモリ 
も， MPU に実装するのはかなり困難だったようで， 
初期の32ビット MPU (68020 や Z 800 0) では256バイト 
程度の容量しかもつことができなかった.しかし， 
MPU が進化するにつれ， 1 K バイト， 2 K バイトの容 


量は当たり前になり，中期の32ビット MPU の i 486 や 
68040では 8 K バイトの容量をもつようになった.こ 
うなると， MPU のアーキテクチャにパラダイムシフ 
卜が発生する.すなわち，遅いメモリのため命令フェ 
ッチのバンド幅が不充分だったので，1命令に多機能 
をもたせることを余儀なくされた CISC から，高速な命 
令供給に物を言わせて単純な機能しかない命令を短 
時間に多量に実行する RISC への移行が始まったので 
ある. 

なお，キャッシュメモリといっても，さすがに256 
バイトでは「ないよりはまし」といった程度だが， 8 K 
バイトとなるとかなりの手応えがある.仮想記憶のス 
ワッビングの単位が 4 K バイトであることが多い現状 
を考慮すれば， 8 K バイトという容量はプログラム実 
行単位（サブルーチンやモジュール）を格納するのに十 
分な量ということができる. 

現状の LSI の集積技術では， 256 K バイト以上（昔の 
1000倍）のキャッシュメモリを内蔵することも可能に 
なっており，隔世の感がある. 

• RISC の台頭 

1980年頃，米国スタンフォード大学とカリフォル 
ニア大学のバークレー校において， RISC の研究が行 
われていた . RISC とは ， Reduced Instruction Set 
Computer (縮小命令セットコンピュータ）の略であり， 
命令体系を単純化することで，それを実行するハード 
ウェアも単純化し，高い動作周波数で高性能を得ると 
いう思想に則ったコンピュータのことである.スタン 
フォード大学やバークレー校の研究もその例から漏れ 
ない.その共通するアーキテクチャは，次のようなも 
のだった. 

• ロー ド/ストアアーキテクチャ 
•パイプラインを用い，命令を1サイクルで実行 
* 遅延分岐 

これは，現在の RISC チップの特徴でもある . RISC 
では，インタ ロック （パイプラインのステージ間の待 
ち合わせ）などの複雑な制御をハードウェアで行わな 
いことが基本である.それによって，ソフトウェアが 
複雑になっても，ハードウヱアをできるだけ簡単にす 
ることを第一としていた.これは，コンパイラ技術の 
劇的な進歩をよんだ. RISC が使い物になると世間に 
認められたのは，コンバイラ技術の向上によるところ 
が大きい. 

コンパイラ技術に支えられた RISC の性能は，驚く 






べきものだった.たとえば， MIPS の最初の RISC で 
ある R 2000は1986年に発表されたが，それを採用し 
た Silicon Graphics 社のグラフ ィクスワークステーシ 
ヨンはわずか 8 MHz という低い動作周波数にもかかわ 
らず，当時の32ビット MPU を採用した EWS (ェンジ 
ニアリング. ワークステーシヨ ン）以上の性能を発揮 
していた. 

RISC の高性能は徐々に世間に認められるようにな 
り，現在ではほとんどすべての MPU が RISC になっ 
ている. Intel や AMD が開発している x 86 プロセッサ 
も命令体系自体は従来どおりの CISC のものを採用し 
ているが，その中身は RISC 技術を最大限に採用して 
高速化を実現したものだ. 

•新しいハードウェア技術 

(1) スーパースカラとアウトオブオーダー実行 

MPU がパイプラインを効率的に実現するようにな 
ると，1クロックで実行できる命令数が1に近づいて 
きた. MPU の命令は動作クロックに同期して処理さ 
れるため，1クロックで1命令の実行というのが限界 
である.パイプラインが1系統しかないので，1クロ 
ック1命令という壁ができるのである. 

しかし，技術者の夢には際限がない.パイプライン 
を複数系統もち，それらを同時に実行するような構成 
にすれば，1クロックで1命令以上の処理を実現でき 
る.これが スーパー スカラである. 

最近の MPU の性能競争のあおりを受けてか，高性 
能を謳う MPU はスーバースカラ構成が当然のように 
なっている.複数の命令を同時に実行するためには， 
命令間に入出力の依存性があってはいけない.その場 
合は，せっかく複数のパイブラインがあっても，1系 
統のみの実行となる. 

しかし，そのような制限に甘んじていたのでは進歩 
はない.最初の2命令に依存性があっても，3命令目， 

4命令目との依存関係を調べると，依存性がなく，同 
時実行可能な場合がある.そのような条件を自動判別 
して，プログラムに書かれた命令の順序を無視して実 
行する方式が考えられた.もちろん，全体的に見て， 
逐次的に命令を実行する場合と比較して，結果に矛盾 
がないように考慮されている.これがアウトオブオー 
ダー実行である. 

(2) スーパーパイプラインと分岐予測 

MPU の処理性能を上げる方法でもっとも簡単に思 
い付くのは， MPU を動作させるクロック周波数を高 


速化する方法である.しかし，動作クロックを向上さ 
せようと思っても，電気信号の伝わる速度というどう’ 
しても越えられない壁がある. 

MPU の内部は無数の論理素子で構成されているが， 
その素子を電気信号が通過するたびに遅延が生じる. 
MPU の論理設計は，1クロックの間に所定の数の論 
理素子を通過するものと仮定して行われる.しかし， 
動作クロックが高速になると，1クロックの間に電気 
信号が通過できる素子数が限られてくる.もし，その 
素子数が設計値よりも多くなると正常に動作をしな 
い.動作クロックとは，パイプラインを1段処理する 
ための時間を規定するものである.このため，動作周 
波数が高くなるにつれ，パイブライン1段当たりの処 
理数が限られてくる. 

この論理を逆手に取った手法がスーパーパイプライ 
ンである.つまり，処理単位を従来よりも細分化し， 
それらをパイプラインの1段に割り当てる.従来と同 
じ処理をするためにはパイプラインの段数を増やさな 
ければならないが，それだけ速い動作クロックで回路 
を動かすことが可能になれば，パイプライン処理を行 
っている限り，1命令の処理時間は1クロックに見え 
るので，性能が低下することなく高速化を実現できる. 

しかし，現実は甘くない.パイプライン処理で1命 
令の処理時間が1クロックになるのは，分岐がまった 
く存在しない場合である.もちろん，そのようなプロ 
グラムはほとんど存在しない. 

分岐するかしないかは，命令の実行段階でなければ 
わからないので，パイブライン動作を乱さないために 
分岐命令が実行段階になるまで，次のアドレスの命令 
フェッチや デコード 動作は続けられる.つまり，分岐 
命令を実行する段階では，分岐命令の次の命令が デコ 
ード段階に，次の次の命令がフヱッチ段階に入ってい 
るわけである.ここでの分岐命令の実行が「分岐する」 
だった場合は，新しく分岐先のアドレスで，パイプラ 
インの最初の命令フェッチからやり直さなければなら 
ない. 

パイプラインの段数が増加すると，分岐が発生した 
場合に分岐先の命令を新たにフヱッチしデコードする 
ための処理段数が増加することになり，それまでフェ 
ッチ，デコードした命令がむだになる.そのための時 
間的な損失は，最悪ならばパイプラインの総段数を実 
行するだけの時間にほぼ等しくなる.これでは，いく 
ら周波数を上げて高速化しても実質的な性能に寄与し 
ない. 
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そこで考えられたのが分岐予測である.それまでの 
方法は，常に分岐が成立しないものとして予測してい 
ると言えないこともない.それを分岐予測により，命 
令フェッチを行う方向を決定する.分岐予測が当たれ 
ば，パイプライン処理の損失はない.外れた場合はし 
かたないと割り切る.そのため， MPU のメーカーは 
分岐予測がいかに正確に行えるかという技術に心血を 
注いでいるのである. 

(3) 投機実行 

どんなにスーパースカラとパイプライン技術を駆使 
して MPU の性能を向上させたとしても，分岐予測の 
効率が性能を決定するキーポイントとなっていること 
に変わりない.しかし，分岐条件が未確定の間，命令 
のフェッチやデコードまでは可能だが，それを実行し 
てレジスタなどを更新してしまったのでは，分岐予測 
が外れた場合に取り返しのつかないことになる. 

単純な分岐予測だけでは，分岐条件が未確定な間は 
命令を実行ステージに移行することができないのであ 
る•これではパイプライン処理に乱れが生じてしまう. 
つまり，性能が低下することになる. 

これを解決するための技術が投機実行である.要す 
るに，分岐条件が確定しない場合でも予測した分岐方 
向にしたがって命令を実行し，結果を一時的な領域に 
退避しておく.そして，分岐予測が成功した場合に初 
めて一括してレジスタなどの更新を行う.投機的に実 
行した部分は，分岐予測が失敗すればむだになってし 
まうが，分岐予測が成功した場合は分岐条件確定まで 
の待ち時間がなくなる.これにより，パイプライン処 
理を真に効率的に実行できるようになる. 

最新の高性能 MPU では，スーパースカラ，スー 
パーパイプライン，投機実行のすべてを実現して いる. 

• 64ビットへの道 

MPU のアドレス空間が 4 G バイト （32 ビット）もあ 
れば十分と考えられた時代も束の間であり，1990年 
代の初頭には 4 G バイトでは不足するアプリケーシヨ 
ンが登場するようになった.それを受けて，64ビッ 
卜 MPU である DEC の Alpha 21064や MIPS 社の R 4000 
が登場した. 

しかし，世の中の一般的なユーザーにおける32ビ 
ットから64ビットへの移行は， DEC や] VIIPS の意向 
に反して，非常に緩やかな ペースで 進んでいるよう で 
ある. 2000年になって，ようやく 64ビット化への兆 
しが見え始めた. 


具体的には，ネットワークやデータベース関連の応 
用分野で扱うデータ量が巨大になり過ぎて，アドレス 
空間が32ビットでは不足してきたのだ. 

とはいえ，32ビットから64ビットへの移行は，オー 
バー ロー ドから オーバーマ インドへの進化のように， 
進化そのものが目標であるような気がしないでもな 
い.ましてや，128ビットというのは本当に必要なの 
だろうか.ともかく，64ビットプロセッサの真価が 
発揮されるまでにはもう暫くの時間が必要なのではな 
いかと考える.やはり，当分は32ビットプロセッサ 
が主流であることには変わりないであろう. 32ビッ 
トプロセッサで，パイプライン，キャッシュ，仮想記 
憶といった，アーキテクチャが完成されたことを考え 
ると，64ビット，128ビットの時代になっても，32ビ 
ットプロセッサは生き続けるのではないだろうか. 

ただし，64ビット長や128ビット長のデータを扱う 
SIMD 命令は，マルチメディア処理を行うために流行 
することが予想される.その場合， MPU のレジスタ 
長は必然的に64ビットや128ビットになるが，それを 
もって，64ビットや128ビットプロセッサと称するわ 
けにはいかないと思う. 

•性能向上の最後の砦，マルチプロセッサ 

人々は， MPU の性能向上の進歩以上の性能を要求 
する.それに応えるために，プログラムを並列実行可 
能な複数の部分(スレッドという）に分解して，それを 
複数の MPU で同時に実行しようとする考えがある. 
これが マルチプロセッサ である. マルチプロセッサ 自 
体はそれほど新しい考え方ではなく，大型計算機では 
もちろん，サーバーなどの高性能を謳うコンピュータ 
では当然のように採用されてきた. 

最近は，このマルチプロセッサを1チップ上で実現 
するというものがある . CMP (Chip Multi - Processor ) 
という新語もできたほどである.面積の制限があるの 
で1チップに集積される MPU は2〜4個である場合が 
多いが，将来的にはもっと多くの MPU が集積される 
ことは想像に難くない.1チップマルチプロセッサの 
発想は十数年前から存在するが，実際の MPU に応用 
され始めたのは2001年になってからである. 

わざわざ複数の MPU を 一つに 集積しなくても， 一 
つの MPU 内に同時実行可能な演算器を複数個持たせ 
れば事が足りるという意見もある.これは スーバース 
カラの考え方である. 

マルチプロセッサかスーパースカラか.こうなると 
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思想の問題である.考え方自体は 0 S 論でのモノリシ 
ックカーネルとマイクロ カー ネルの議論に似てくるよ 
うな気がする.単純にいうと，中央集権か地方分権か 
ということであるが，それぞれの利点，欠点があり， 
どちらがよいとは一概にはいえない. 

また，スーバースカラと1チップマルチプロセッサ 
の中間的な解というものもある.それがマルチスレッ 
デイングである. Intel の猛烈なキャンペーンのせい 
で，最近ではハイパースレッデイングと言ったほうが 
通りがいい. 

これは一つの MPU で複数のスレッドを同時実行可 
能にするものである.つまり，プロセッサ内の演算器 
やキャッシユといったハードウエア資源を，時分割で 
複数のプロセスに割り当てて並列実行する.必要なハ 
ードウエア量と付随する性能の効率を考えると，この 
仕組みが主流になるかどうかは不明だが，マルチスレ 
ッデイングを実現する MPU もいくつか発表されてい 
る.今後の推移に関しては，歴史の審判を待ちたい. 

まとめ 

RISC をとりまくプロセッサの歴史については，エ 
ピローグにまとめたのでそちらを参照してほしい. 

人類は，その夢と理想をマイクロプロセッサという 
数ミリ角のチップに詰め込んできた.約30年前に初 
めて発表されたマイクロプロセッサは4ビットの処理 
能力しかなかったが，マイクロプロセッサは8ビット， 


16ビット，32ビット，64ビットと性能向上を達成し 
てきた.いま，コンピュータの世界では32ビットが 
常識で，64ビットへの転換期にある. 

ここ 数年の動向を眺めていると，かつての大型計算 
機の MPU は EWS の MPU に駆逐され，その EWS の 
MPU は （ POWER や SPARC が気を吐いているものの） 
PC の MPU であった x 86 系 MPU にとって代わられよ 
うとしている.これは， PC も EWS も性能差がなくな 
ってきていることを意味する. MPU の発展は，始ま 
ったばかりなのか絶頂期なのか……神ならぬ身の知る 
由もなし. 

アカルサハホロピノ姿デアラウカ 
人モ家モ暗イウチハマダ滅亡セヌ 

太宰治『右大臣実朝』より 
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プロセッサとは何だろう.専門書や教科書を読んでも難しそうだ.しかし MPU とは，そんなに複雑なものだろ 
うか.じつは，その背景にある考え方は，単純なのではないだろうか.直感で理解できたら嬉しい.それが，本 
書の テーマで ある.まずは， MPU の基本的な動作に ついて 解説する. 


7コンピュータができること 

• 数値計算 

大規模数値計算，高度な意志決定支援，人工知能な 
どコンピュータの応用分野は無限にある.しかし，コ 
ンピュータ自体ができることは単純である.データの 
「転送」，「加減乗除」，「論理演算丄「シフト」，「分岐」 
といった基本操作だけである.その計算結果を，人間 
が意味付けすること，たとえば，「結果がある値にな 
ったらある事象が成立したとみなす」とすることで， 
さまざまな結論を導き出す.っまり，ある一般的な問 
題を数値計算の操作に代表させ（これを問題のモデル 
化という），問題解決を行う. 

極端な一例を示す.たとえば「命」と名付けられた 
記憶領域があり，そこには〇または1の値が入るもの 
とする. 0は死んだこと，1は生きていることと意味 
付ける. コンピュータでの 操作としたら，起動時に 
「命」に1を格納し，ある時間が経過したら「命」に0 
を格納するものとする.これは人の一生を計算してい 
ることになる.定期的に「命」の値を調べていれば， 
アバレンジヤーの リジェのごとく，「あっ，死んだ」 
とか「あっ，生き返った」とか言うことができる. 

あるいは，論理的な思考を実現するためには，仮定 
と結論の組み合わせやある項目から連想される別の項 
目を多数記憶しておき，最初の仮定から始まって，そ 
こから得られる結論を次々と連想される項目に置き換 
えていくことで，最終的な結論を得られる.この操作 
を実現する基本操作は比較処理である.比較処理は， 


コンピュータでは排他的論理和という論理演算で実現 
される.また，連想結果の置き換えは転送処理に他な 
らない.結局，複雑に見える処理も基本操作の積み重 
ねで実現されるのである.その意味では， スーパー コ 
ンピュータの MPU も， EWS の MPU も， PC の MPU 
もできることに大差はない.違いは，データの処理速 
度くらいであろう. 

• プ□グラム内蔵方式 

さて，数値計算は定型的な処理であるので，ある程 
度自動化できる.たとえば， g 動数表作成機や微積分 
装置などは，数値的な定型処理を機械化したものであ 
る.これらはコンピュータと呼べるだろうか.答えは 
否である.コンピュータをコンピュータたらしめる属 
性はプログラム内蔵方式と条件分岐にあるといわれて 
いる. 

プログラム 内蔵方式とは， コンピュータの動作を 規 
定 する プログラム （命令 列） を システム の記憶装置に内 
蔵して いる ことをいう.命令と データに 区別はなく， 
命令の実行によって記憶装置にある命令を変更してそ 
れを実行できるのが大きな特長である.このような命 
令の自己書き換えに関しては， デバッグの 難しさや保 
護の難しさから推奨されない.しかし，これは粒度 
(書き換えてから実行するまでの時間的空間的距離）の 
小さい場合である.粒度の大きい場合は，ハードディ 
スクなどの補助記憶装置から記憶装置に命令や データ 
をロードして，その部分を実行することに等しく，こ 
れは コンピュータシステムにおいて ごく普通に行わ 
れる. 

条件分岐とは，途中の計算結果に応じて処理を切り 


15 








記憶 

装置 
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データの 

出力 



図 1 MPU の構成要素 


分けることができる機能を指す.プログラムを見ただ 
けでは分岐が発生するか否かは不明である.その条件 
分岐を処理する段階になって初めて分岐するか否かが 
決定されるのである.条件分岐のおかげで，繰り返し 
や複雑な制御構造が実現できる. 

以上のコンピュータの属性を一言でいえば，記憶装 
置にある命令を実行する有限才ートマトンである.有 
限オートマトンの意味に関しては，抽象的で難しい概 
念なので，ここでは省略する. 

そして，マイクロプロセッサ，あるいは， MPU と 
はコンピュータを1チップに集積したものである.本 
章では MPU の具体的な動作原理について説明する. 
本章では主として 「 MPU 」 という単語を使用するが， 
ここでの議論は，それを「コンピュータ」に置き換え 
ても，そのまま当てはまる. 



MPU の構成要素 


現代の MPU はフォン•ノイマン型と呼ばれる.こ 
れはプログラム内蔵方式のことであり，フォン•ノイ 
マンが'提唱したということになっているが，最近では 
それは誤りとされている.フォン•ノイマン型とかフ 
ォン.ノイマンボトルネックという言葉はやがて消滅 
するかもしれないが，ここでは慣例にしたがってお 
こぅ. 

典型的な MPU は，「記憶装置」，「命令やデータ 
を取り込むしくみ」，「命令実行を制御するしくみ」， 
「データを加工（処理）するしくみ」を基本的な構成要 
素とする.また周辺機器とデータをやりとりするため 
の「入出力処理」というものもある.図1に典型的な 
MPU の構成要素を示す. 

• プログラム内蔵方式には記憶装置が必須 

プログラム 内蔵方式には， プログラムを 内蔵するた 
めの記憶装置が必須である.ほかの構成要素は MPU 
に内蔵されるが，記憶装置は，基本的に MPU の外部 
にある.この記憶装置はメモリと呼ばれ，その構成に 
よって ROM (Read Only Memory ) と RAM (Random 
Access Memory ) に大別される. 

メモリとは複数の保存場所の集合で，各保存場所に 
は位置を特定するためのアドレスが付けられている. 
そして，あるアドレスを指定すると，それに対応する 
保存場所の内容が外部に読み出されるという装置であ 
る. RAM では，アドレスと新しいデータを与えるこ 


図2 メモリの概念図 
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プロセッサの基礎知 


図 3 32 ビット データ バス 



とで，アドレスで指定される保存場所の内容を変更す 
ることもできる.図2にメモリの概念図を示す. 

メモリ 内の保存場所の大きさ（ビット数） はいくつ で 
もかまわない.しかし，最近の メモリは一つの 保存場 
所の大きさを8ビット （=1 バイト）とするバイトアド 
レス方式が主流である.つまり， 一つの アドレスを与 
えると1バイトのデータを得ることができる注 1 . 

しかし， MPU の扱うデータは1バイトのみとは限 
らない.ハーフワード (16 ビット），ワード (32 ビット）， 
ダブルワード （64 ビット）といったデータ注 2 も扱う. 
おそらく，もっとも多用されるデータ長はワード （16 
ビットまたは32ビット）であろう.「〇〇ワード」と 
いう表現は，ワードが基準になっていることを示す証 
拠である.このため， MPU はある程度まとまったビ 
ット数(あるいはワード単位）のデータをメモリから取 
り出すほうが効率的である.このため， MPU とメモ 
リ間のデータのインターフェース（データバス）は16 
ビット幅または32ビット幅であることが多い（アドレ 
スのビット幅はまちまち）.たとえば，データバスが 
32ビット幅の場合は，1バイト出力のメモリを4個 
並列につなげて32ビットのデータ供給を実現できる 
(図 3). 

アドレスはバイト位置を示すものである注 3 のに， 
一つの アドレスから4バイト （32 ビット）のデータを取 


り出そうとすると「バイト並び(エンディアン）」の問 
題が生じる.複数バイトから構成されるデータに対し， 
バイトアドレスのより小さい保存場所にデータの上位 
の値を置くか，データの下位の値を置くかで2通りの 
方法がある•アドレスの小さい場所にデータの上位を 
置くのがビッグエンディアン，逆にデータの下位を置 
くのがリトルエンデイアンである.メモリでのバイト 
並びは異なるが，ビッグエンデイアンでもリトルエン 
デイアンでも，データバス上では同じイメージになる 
(図 4). 

MPU 内の演算器などはデータの下位側から計算を 
していくので，その意味で，すべてはリトルエンデイ 
アンに集約されるといえなくもない.エンディアンと 
は，あくまでもメモリ上にデータがどの順序で格納さ 
れているかを示しているにすぎず， MPU の内部処理 
とは直接は関係ない.また，ビッグエンディアンの場 
合，ビット番号の名付け方がリトルエンディアンと逆 
順になっていることが多く，惑わされやすいが，実質 
(バイト内のビットイメージ）は同じである. 

• 命令やデータを取り込むしくみ 

MPU がまず行わなければならないことは，メモリ 
に格納された命令やデータを内部に取り込むことであ 
る.そのためには，メモリに与えるアドレスを生成し， 
メモリから出力されたデータを取り込めばよい. 


注1:メモリによっては保存場所の大きさが16ビット （ X 16 という），32ビット （ X 32 という）のものも存在する.どちらかといえば，16 
ビットが一般的かもしれない.だたし，その場合もバイト単位での書き込みは可能になっている. 

注2 :インテルやモトローラに代表される CISC 時代から MPU を使ってきて V .、る人は，16ビットをワード，32ビットをダブルワード， 
64ビットをクオドワードと呼ぶ.現在は32ビット MPU が主流なので32ビットをワードと呼ぶのが自然だが，16ビット MPU 時代 
の慣習も根強く残っている . CISC メーカーは16ビットをワード ， RISC メーカーは32ビットをワードと呼ぶ傾向が強い. 

注3 :昔の大型計算機などではアドレスの割り付けがワード単位になっているものもある.つまり，すべてのデータはワード単位でしか 
扱わないのが基本である.このような場合にはエンデイアンの問題はない. 
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図4エンディアンとデータバスの関係 


まず，命令について考えよう. MPU は PC (Program 
Counter :プログラムカウンタ）という記憶機構（レジ 
スタ）を備えている.これは，命令を取り込むメモリ 
のアドレスを保持する. PC の値はアドレスバスを通 
じて MPU の外部に出力され，これがメモリに入力さ 
れる.アドレスバスに値を出力すると，データバスを 
入力状態にしてメモリから出力された値(命令）を取り 
込む.これを命令フエッチという. 

MPU がリセットされると，ある特定の値が PC の 
初期値として設定される.そして PC は，通常はメモ 
リから取り込んだ命令のバイト数だけ値が増加してい 
く. メモリから取り込んだ命令が分岐命令だった 


場合は，分岐先のアドレスが新たな PC として設定さ 
れる# 4 . 

データバスから取り込まれた命令は，一般に，命令 
レジスタと呼ばれる記憶機構に保持される.それ以降 
の命令処理は，命令レジスタの内容にしたがって行わ 
れる. 

さて，命令が扱うデータについて考えよう.メモリ 
には命令のほかにデータも格納されている.命令によ 
っては，その実行のためにメモリのデータが必要であ 
る.このため，命令の実行にともなって，メモリに格 
納された値が必要になった場合に活性化される機構を 
備えている.メモリを參照するアドレスはロード命令 


注4 :分岐先のアドレスは，通常，分岐命令の実行によって決定される.つまり， PC を分岐先に設定し直すタイミングは，分岐命令の 
実行後である.しかし，最近の MPU では命令のフェッチと実行部分が切り離されている場合もあり，この場合は命令フェッチ部 
，律的に分岐命令を処理する. 


が自律的に分岐名 


エンディアンの由来 


エンデイアンという言葉はコンピュータ用語の中では 
それほど古くない.1980年に Danny Cohen が 『On Holy 
Wars and a Plea for Peace 』 という論文の中で初めて使 
用したというのが定説である.その語源はジョナサン • 
スイフトの『ガリバー旅行記』にある.小人国（リリパ 
ット）の中に出てくる，ゆで玉子を小さい端から食べる 
(割る ？） 主義の人々と大きい端から食べる主義の人々が 
由来である.「端」を表す「エンド」という単語に，「主 
義者」を表す「イアン」（例としてベジタリアンなどが 
ある）が合成されてできた. 


昔は，リトルエンディアンをインテル形式，ビッグエ 
ンディアンをモト t ? ーラ形式と呼んでいた.本来，リト 
ルエンディアンは DEC が'，ビツグエンディアンは ffiM 
が提唱したものらしいが.エンディアンのことを，ちよ 
っと前の MIPS のドキュメントでは SEX (性別）と書かれ 
ていた時期もある.なぜか，ビッグエンディアンが男 
( male ) で，リトルエンディアンが女 ( female ) である. 

エンディアンという表現は，日本では坂村健氏が広め 
たような覚えがある. 
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図5命令やデータを取り込むしくみ 


バス 


やストア命令などを実行(正確にはデコード）すること 
で生成される.このアドレスはオペランドアドレスレ 
ジスタ（とりあえず，そう命名する）という記憶機構に 
保持される.オペランドアドレスレジスタの値はアド 
レスバスを通じて MPU の外部に出力され，これがメ 
モリに入力される.アドレスバスに値を出力すると， 
データバスを人力状態にしてメモリから出力された値 
(データ）を取り込む.これをオペランドフェッチ，ま 
たは，オペランドリードという. 

図5に MPU の命令やデータを取り込むしくみを 
示す. 

•命令実行を制御するしくみ 

MPU は，メモリから取り込んだ命令を解釈し実行 
する.メモリから取り込まれた命令は 命令 レジスタに 
保持され，それが 命令 デコーダによって解釈（デコー 
ド）される.デコードとは命令コードに含まれている 
MPU に対する指令を取り出す機構である.具体的に 
は，命令の種類を判別し，取り出した情報に基づいて， 
実行すべき演算の種類を決定したり，必要な制御信号 
を生成したりする. 

命令がデコードされると，命令ごとにその後の処理 
手順が決定される.命令の実行とは， MPU の内部状 
態が変化することであり，ある状態になると回路が特 
定の状態（たとえば，入力を演算器に入れるとか）に変 
化する，またある状態では回路が別の状態（たとえば 
演算器の出力を取り出すとか）に変化する，というこ 
とを繰り返すことで実現される.この命令実行は，一 


般に，クロックと呼ばれる周期的に変化する信号に同 
期して行われる.クロックが進むにつれて，内部状態 
は，ある命令では， 

SO —SI — S 2 — S 3 

と状態変化をし，また，ある命令では， 

SO — S 4— S 5 — S 5 

と状態変化をする.ここでいう内部状態とは，具体的 
には， MPU 内の各ゲートを ON / OFF する組み合わせ 
を示す.ある内部状態は，命令デコード結果と命令実 
行の中間結果を受けて，次にどの内部状態になるかが 
決定される.この状態変化によって， MPU 内をデー 
夕が流れていく〔図 6( a )〕. 

以上が命令デコード後の制御であるが， MPU 全 
体も， 

命令取り込み—命令デコード—命令実行 
という大きな状態遷移をしながら制御されている〔図 

6(b)]. 

要するに，命令実行は状態遷移の塊なのである•こ 
のような状態遷移を司る機構を，ステートマシン，あ 
るいは，シーケンサと呼ぶ.つまり， MPU の実行と 
は，大小さまざまなシーケンサが組み合わされて複雑 
な状態遷移を行うことで実現されるのである. 

• データを加工(処理)するしくみ 

命令の実行とは，メモリに格納されているデータに 
対して何らかの加工（何もしないことを含む）をして， 
メモリに書き戻したり，命令実行の状態を変化させた 
りすることである. 


メモリ 


章プロセツサの基礎知識 


入出カバッファ 
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ゲー ト 1 ゲート2 ゲート3 ゲー ト 4 



( a ) 状態変化とデータの流れ 


図6 MPU 内部の状態遷移 


U セツト 




図7データを加工するしくみ 


メモリから取り込まれたデータは，レジスタと呼ば 
れる MPU 内部のメモリに一時的に退避されることも 
ある. MPU は，レジスタ（内部メモリ）やメモリ（外部 
メモリ）からのデータを演算器に適宜与えることで 
データを加工する（図 7). 

演算器のことを ALU (算術論理ユニット ： Arith 
metic Logic Unit ) と呼ぶ.これは，加減算を行う算 
術ユニット （Arithmetic Unit ) と論理和，論理積，排 
他的論理和などを行う論理ユニット （Logic Unit ) の総 
称である.基本的な演算のうち，乗算と除算は専用の 
ユニッ トで実現される. 

どのメモリから演算器の入力をもってくるかという 
点は， MPU のアーキテクチャ（設計思想）に大きく関 
係する.基本的には，二つ（同一でもいい）のレジスタ 
から入カデータをもってくる.しかし， 
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図 8 回路の模式図 


ク□ック 



フリップフロップ フリップフロップ 


1クロック間に信号が伝わることが必要 


メモリ とレジスタ 
レジスタと メモリ 
メモリ と メモリ 

といった入力の組み合わせも当然考えることができ 
る.ソフトウェアの作りやすさを考慮すれば，すべて 
の組み合わせが可能なほうがプログラミングの自由度 
が高く嬉しい.ハードウェアの設計しやすさを考慮す 
れば，メモリから取り込んだデータは必ずレジスタに 
格納することとし（これは何もしないという処理)，演 
算器の入力はレジスタのみに限定したほうがハードウ 
ェア設計が楽で嬉しい. 

前者は CISC の考え方であり，後者は RISC の考え 
方である.ただ，二つの入力がどちらもメモリという 
のは，制御がかなり複雑になるため， CISC であって 
も，入力の少なくとも一方はレジスタに限定されてい 
ることが多い. 

演算器での演算の種類は，命令デコードによって決 
定される.なお，図5にあるアドレス生成器も演算器 
の一種であり，その実体は加算器である.アドレス生 
成器は，専用にもつ場合と，通常の演算器で代用する 
場合がある. 

• クロック 

MPU の動作を理解するとき，クロックの存在を忘 
れることはできない.クロックとは一定の周期で0と 
1を繰り返しながら自走している特殊な信号である. 
これは， MPU の動作タイミングの基準となる.1秒 
間に1回だけクロックが0から1に変化する （1 周期)速 
さを 1 Hz (ヘルツ）という.最近の MPU は 800 MHz と 
か 1 GHz という クロックで動作するが'， 800 MHz とは 


1秒間に800 XM (メガ：100万）= 8億回， 1 GHz とは 
1秒間に1 x G (ギガ：10億）=10億回，クロックが変 
化することを意味する. 

MPU の内部回路はフリップフロップの集合で構成 
される.フリップフロップとは，クロックの切り替わ 
り時に新たな状態 （0 または1という信号）を保持する 
回路である.フリップフロップを複数個並列に並べた 
ものがレジスタである. 

MPU の回路を，フリップ フロ ッブとフリップ フロ 
ップ間を配線したものとして模式化すると（図 8), 回 
路が動作するということは，クロックが1回変化する 
間に前段のフリップフロップに保持した値が，導線を 
通じて，後段のフリップフロップに保持し直されるこ 
とに相当する.レジスタなどを考える場合，フリップ 
フロップ間の配線長は完全には同じでないので，後段 
のフリップ フロ ップに信号が到達する時間は同一では 
ない.あるいは，フリップフロップ間には論理積や論 
理和のゲートが挿入されていて，ゲートを通過するご 
とに少しずつ信号が遅延する.クロックとは，その信 
号の到達時間を規定するものである.つまり，1クロ 
ック間に信号が伝わらないと誤動作する.全部の信号 
が正しく伝わるためのクロックの最高周期が ， MPU 
の最高動作周波数である. 

♦汎用レジスタ 

MPU 内部のメモリをレジスタということはすでに 
説明した注 5 .レジスタは演算器の入出力となるデー 
夕の一時記憶場所である.レジスタは演算器のデータ 
となるほかに，アドレッシングモードにおいて，レジ 
スタ間接モード用のベースアドレスやインデックスを 


注5 :厳密にはレジスタとメモリは異なる.メモリにはフリップフロッブで値を保持する SRAM とコンデンサの容量で値を保持する 
DRAM があり，通常， MPU 内部に搭載されるのは SRAM (キャッシュメモリなどに使用される）である.その意味で，レジスタ 
もメモリもフリップフロップの集まりであ蚤が，メモリは専用に設計され，小面積で大容量の情報を記憶できる.つまり，レジス 
夕を SRAM で構成すれば面積が縮小できるのだが， SRAM はクロッダに同期して動くわけではないので，アクセス時間を規定し 
にく く回路設計が難しくなる. 
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与えるためにも用いられる.このようにレジスタの用 
途はいろいろあるが，すべての用途に使用できるレジ 
スタを；!凡用レジスタ (General Purpose Register ) と 

いう. 

最近の MPU の提供するレジスタは汎用である.こ 
のため，最近の MPU は，汎用レジスタ方式と呼ばれ 
る.しかし，昔はハードウェアを簡略化するために， 
目的別の専用レジスタを用意するものもあった•つま 
り，ベースアドレス用，インデックス用というように 
レジスタの用途が限られていた.このような場合，演 
算器の入出力となるレジスタも限られている.具体的 
には，演算器の入力の一つと出力が演算用レジスタ 
(アキュムレータ）に接続されている.演算器のもう片 
方の入力が汎用で，ほかの専用レジスタやメモリ，ア 
キュムレータ自身に接続されている.このような方式 
はアキュムレータ方式と呼ばれる. 

•入出力 

入出力とは，たとえば x 86 系の MPU では MOV とい 
う転送命令のほかにエ N や OUT という入出力のため 
の命令が存在する. MOV はメモリやレジスタに対する 
データの入出力を司るので，新たに入出力といわれて 
もピンとこない.ここでいう「入力」と「出力」とは 
周辺装置からの情報の入力，周辺装置への情報の出力 
を示す.しかし，これらの命令が実際に行う処理は， 
あるアドレスからデータを入力すること，あるいは， 
あるアドレスへデータを出力することである.それで 
はますます， MOV との違いがわからない.実は「入出 
力」命令でのアドレスはメモリではなく，周辺装置に 
直接接続されているのである.メモリと区別する意味 
で，「入出力」命令でアドレスする（指し示す）対象を 
I パ D ポートという. 

通常の MOV 命令と IN/OUT 命令を区別する場合，ア 
ドレスとデータの入出力時には，それがメモリか I/O 
ポートであるかを示す信号（外部端子）が使われる. 
MPU を使ったシステムを構築する場合は，このメモ 
リなのか1バ3なのかの信号を見て参照する対象を振り 
分けられるようにしなければならない. 

MPU によっては専用の「入出力」命令を提供して 
いないものもある.これはメモリ空間の特定位置を 
1/〇ポートとみなす方式である.これをメモリマップ 
卜 I / O という. 

I / O ポートとメモリの差異は，その逐次性にある. 
メモリに対しては投機実行やアウトオブオーダー実行 
が考えられるが， I / O にはそれがない.これらについ 


ては，後述する各章で解説する. 

〇命令コード，オペランド， 

J アドレッシングモード 

• 命令の形式 

ここでは MPU が処理する命令に関して考える•上 
述のように，命令はデコードされることによって処理 
に関する情報を抽出する.逆にいえば，命令には処理 
に関する情報が符号化(エンコード）されている.命令 
は数値の形態でメモリに格納されている.この意味で 
命令とデータに区別はない.そして，命令を示す数値 
をビットで表すと，それぞれのビットが意味をもって 
いる（情報がエンコードされている）ことがわかる•命 
令を示す数値を 命令コー ドと呼ぶ. 

一つの 命令コー ドの ビット数は何ビットでもかまわ 
ないのだが，メモリに効率良く格納できるように1バ 
イト （8 ビット）の倍数が用いられる. CISC では命令 
の種類によって命令コードのビット長がバイト単位で 
可変になっていたりするが， RISC では命令デコード 
を簡単に行うために固定長 （16 ビット，あるいは32ビ 
ット）であることが多い. 

一般に命令コードは，オペレーシヨンコード（オペ 
コード）とオペランドの二つの領域に分けられる.才 
ペコードは命令の種類を示し，オペランドは扱うデー 
夕の形態を示す.オペランドはアドレッシングモード 
で規定される.アドレッシングモードとは，データが 
どこに格納されているかを示す形式である.アドレッ 
シングモードの例としては， 

•即値（イミデイエート） 

命令コードに埋め込まれた定数値 
• レジスタ 

レジスタにデータがある 
•直接アドレス 

アドレスで示すメモリにデータがある 
參レジスタ間接 

レジスタにあるアドレス値であるメモリにデータ 
がある 

•インデックスつきレジスタ間接 

レジスタにあるアドレス値にインデックスレジス 
夕の値を加えたアドレスにデータがある 
•デイスプレースメント付きレジスタ間接 

レジスタにあるアドレス値にデイスプレースメン 
卜を加えたアドレスにデータがある 
などがある.メモリ参照は，基本的には， 
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メモリ 


(a) Address 
直接アドレス 


Address 


図9 メモリアドレツシングの例 


(b) disp (Rb) 

ベースレジスタ 
+ディスプレースメント 


(c) disp (Rb+Rx) 

ベースレジスタ 
+インデクスレジスタ 
+ディスプレースメント 



disp 


disp 


ベースレジスタ+インデックスレジスタ 

+デイスプレースメント（オフセット） 
ですべてが表せる.このとき，インデックスレジスタ 
の値は参照するデータサイズにしたがってスケーリン 
グされる（バイトなら x 1，16ビットなら x 2，32ビッ 
卜なら ><4，64ビットなら x 8) こともある.つまり， 
インデクスの値は何番目のデータであるかを示す.こ 
れを自動スケーリングという. 

また，メモリ間接アドレッシングというものもあり， 
これは，上述のアドレス計算で求められたメモリの内 
容を新たなベースアドレスとし，デイスプレースメン 
卜を加えてメモリアドレスとするものである. 

なお，ベースレジスタとしてプログラムカウンタ 
( PC ) を指定できる場合もある.これを PC 相対アドレ 
ッシングと呼び，ポジションインデペンデントなオブ 
ジェクトコードを作成する場合に使用される.図 9 に 
アドレッシングモードの例を示す. 

このように，アドレッシングに関してはいろいろな 
方法が考えられるが， CISC は豊富なアドレッシング 
モードを特徴とし， RISC は単純なアドレッシング 
モードを特徴とする.具体的には， CISC は何でもあ 
りで， RISC は即値，レジスタ，デイスプレースメン 
卜付きレジスタ間接が典型的なアドレッシングモード 
である. 

ところで，命令の実行は， 二つのソースオペランド 


を入力とする演算を行い，結果をデスティネーション 
オペランドに格納する.二つのソースオペランドと一 
つのデステイネーションオペランドを独立に指定する 
ことができるのが 3 オペランド方式であり，一つの 
ソースオペランドとデステイネーシヨンオペランドが 
共通なものが 2 オペランド方式である. 3オペランド 
方式では命令の中に三つのオペランド領域が存在し， 
2オペランド方式では命令の中に二つのオペランド領 
域が存在する. 

オペコードのビット数は命令の個数を示す•つまり， 
2ビットなら4種類，3ビットならは8種類，4ビット 
ならば16種類，5ビットならば32種類……，という 
具合である.命令コードのオペコード以外のビットは 
オペランドを示す.このビットが，基本的には，2才 
ペランド方式では二つに，3オペランド方式では三つ 
に分割される.オペランドのうち，アドレッシング 
モードに含まれるレジスタはレジスタの番号で示され 
る.このレジスタ番号を示す領域のビット数は， 
MPU が備えるレジスタの本数によって決定される. 4 
本なら2ビット，8本なら3ビット，16本なら4ビット， 
32本なら5ビット……，という具合にビットが必要で 
ある.また，オペランド領域の分割のやり方は，命令 
の種類やアドレッシングモードによって少しずつ異な 
る.この違いを命令形式（フォーマツト）という.命令 
形式の例を図10に示す. 
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図 10 命令形式の例 


( a ) 形式0 
レジスタ間の3 
オペランド演算 

ソース1ソース2デステイネーシヨン 

( b ) 形式1 
デイスプレース 
メントつきレジ 
スタ間接□ー ド 
/ストア命令 

( c ) 形式2 
即値をレジスタ 
に格納 

( d ) 形式3 
レジスタの値が 
条件に一致する 
と分岐条件分岐 
命令 


【命令セツアーキテクチャの仮定】 

• 16ビツト固定長命令 • 命令の種類は16種 • レジスタは8本 
•アドレッシングモードは即値，レジスタ，ディスプレースメント付き 
のレジスタ間接 


4_3_3 — 6 


オペコード 

レジスタ 

レジスタ 

デイスプレース 
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オペコード 
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オペコード 

レジスタ 

条件 

デイスプレース 
メント 
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オペコード 
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レジスタ 

空き 


以上の説明からわかるように，命令コードのビット 
長は，オペコードの種類，アドレッシングモードの種 
類，レジスタの本数，オペランドの数などで決定され 
る.これらを総称して命令セットアーキテクチャとい 
う. MPU では，無限に長い命令コードを使用できる 
わけではないので，その命令セットアーキテクチャで 
命令コード長が決定される.逆にいえば，固定長の命 
令コードを採用する場合は，命令セットアーキテクチ 
ャを詳細に検討しなければ，情報が命令コードに入り 
きらなくなってしまう. 

• 命令の流れと実行 

MPU の構成要素がわかったところで，それらがど 
のような係わりをもって動作するのかを見ていこう. 
図11に模式化した MPU のブロック図と，演算命令/ 
ロード命令/ストア命令に関し，各状態での命令と 
データの流れを太線で示す.もちろん， MPU にはこ 
れら以外の命令も存在するが，ここでは省略する.命 
令フヱッチと命令デコードはすべての命令で共通であ 
るが，それ以降は命令デコード結果によって異なる状 
態遷移をする. 

(1) 演算命令（レジスタ-レジスタ演算） 

演算命令は，命令フェッチ〔図11 (a)〕， 命令デコー 
ド&レジスタリード〔図 11(b)〕， 命令実行〔図 11(d)〕 
という状態遷移を行うことで命令を実行する. 

(2) ロー ド命令 

ロード命令は，命令フェッチ〔図11 (a) 〕，命令デ 
コード〔図 11(c)〕， アドレス計算〔図11 (e)〕， メモリ 


アクセス1=オペランドリード〔図11 (f)〕， メモリア 
クセス2=レジスタライト〔図11 (h)〕 という状態遷移 
を行うことで命令を実行する. 

⑶ストア命令 

ロード命令は，命令フェッチ〔図11 (a)〕， 命令デ 
コード〔図 11(c)〕， アドレス計算〔図 11(e)〕， メモ 
リアクセス1=レジスタリード〔図11 (g)〕， メモリア 
クセス2 =オペランドライト〔図11(1)〕という状態遷 
移を行うことで命令を実行する. 

• パイプライン 

昔の MPU は一つの命令の実行が終わった後で，次 
の命令の実行を開始していた.しかし，命令実行に係 
わる状態遷移において，演算器など多くのハードウェ 
ア資源は1回しか使用されない.これでは，あまりに 
も効率が悪い.命令実行の状態をオーバラップさせる 
ことで，クロックごとにハードウェア資源を使用する 
ことができ，命令実行のスループット（クロックごと 
に実行が終了する命令の個数）も向上する.これがパ 
イプラインの考え方である. 

パイプライン構造で MPU を動作させるためには， 
各状態で演算結果などのデータを保持しておけばよ 
い.図 12(p.27) に，演算命令をパイプライン構造で実 
行する場合のハードウェア資源の使用状況を示す. 

パイプラインに関しては，第2章で詳細に解説する. 
• キヤッシユ 

これまでの説明は，メモリを1クロックで参照でき 
るものとして話をすすめてきた.しかし，現実的には， 
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( a ) 命令フェッチ _ 



( c ) 命令デコード（□—ド/ストア命令) 


図11 MPU のブロック図と命令実行の流れ 

メモリのアクセス時間は MPU のクロックと比べて非 
常に遅い.実際の命令実行では，メモリを参照する状 
態（命令フェッチ，オペランドリード，オペランドラ 
イト）は複数のクロック数を消費する.これでは，命 
令実行がメモリのアクセス時間に律速されてしまい， 
高速な実行ができない. 

そこで考案されたのが，従来は外部にあったメモリ 
を MPU の内部に取り込むことである.この場合，高 
速な SRAM を集積することが可能になり，1〜2クロ 



"( b ) 命令デコード（演算命令) 



( d ) 命令実行（演算命令) 



( e ) アドレス計算（□ード/ストア命令) 


ックでメモリを参照できる.これがキャッシュメモリ 
である.しかし，外部メモリと同じ容量の キャッシュ 
メモリを内蔵することは不可能である.そこで，外部 
メモリの一部分をコピーして キャッシュ メモリに格納 
し，外部メモリとの入れ替えを適宜行って，高速な命 
令実行を維持する. 

キャッシュメモリに関しては，第4章で詳細に解説 
する. 
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( f ) メモリアクセス 1 (□ー ド命令) 



( h ) メモリアクセス2 (□—ド命令） 

図11 MPU のブロック図と命令実行の流れ（つづき） 


• MMU と仮想記憶 

命令やデータを格納する外部メモリの容量には限界 
がある.しかし，ソフトウェアの高度化にともない， 
プログラムがメモリに格納しきれない場合も出てき 
た.これを解決するために，プログラムを分割してハ 
ードディスクなどの補助記憶装置に格納し，少しずつ 
メモリの内容と置き換えながら，それを実行するとい 
う方式が考えられた.発想はキャッシュメモリと同じ 
である.これを行うためには，プログラムで参照する 
アドレス（仮想アドレス）を実際のメモリのアドレス 
(物理アドレス）に変換する必要がある.この機能を提 
供するのが MMU (Memory Management Unit : メモ 
リ管理 ユニッ ト）である. 

MMU には，マルチタスクの実現，メモリ保護の実 
現という機能も有している. MMU に関しては，第5 
章で詳細に解説する. 

•割り込み 

MPU の処理内容が高度化してくるとソフトウェア 
も複雑になる.そこで，プログラムの本筋とは直接関 
係のない処理を独立に行うという発想が生まれた.そ 



( g ) メモリアクセス1(ストア命令) 



0) メモリアクセス2 (ストア命令) 


れを実現するのが割り込みである•割り込みが発生す 
ると， MPU はそれまで実行していた処理をいったん 
中断し，割り込み処理という別の処理の実行を始める. 
割り込み処理が終了すると，プログラムの実行は割り 
込みが発生した時点から再開する.プログラムは本筋 
のプログラムと割り込み処理用のプログラムを独立に 
開発できる.割り込みを使用しない場合は，割り込み 
処理で行うような別処理を本筋のプログラムにサブ 
ルーチンコールを させて実行しなければならず， プロ 
グラム開発において，そのための余計な考慮が強いら 
れる. 

割り込みに関しては，第6章で詳細に解説する. 

• プ□グラムとは 

MPU すなわちコンピュータは，メモリに格納され 
た命令を取り込み，その指示するとおりに動作する. 
昔から，コンピュータは ソフ トウェアがなければ只の 
箱(粗大ゴミとも）といわれる.ソフトウェアとはプロ 
グラムのことであるが，それではプログラムとは何だ 
ろう.これは，本章の目的ではないので簡単に説明 
する. 
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図 12 パイプラインとハードウエア 
資源の供給 


ク□ック _[ 


命令1 


口卩令ご 


口卩^1^3 



コンピュータが理解できる命令は，コンピュータご 
とに定義された機械語と呼ばれるビット列である.一 
般的には，ビット列が8ビット（バイト），16ビット 
(ハーフ ワード），32ビット（ワード）の塊になってメ 
モリに格納されており（そのほうがメモリにとって都 
合がよいので），それが機械語の命令として認識され 
る.命令が參照するデータも命令と同じ形式をしてお 
り（区別がない），それがコンピュータ自体の属性でも 
ある. 

命令をある規則にしたがって並べ，コンピュータに 
与えると，特定の仕事をさせることができる.プログ 
ラムとは，目的の仕事をコンピュータに実行させるた 
めに，それに最適な規則（アルゴリズムという）にした 
がって，（機械語の）命令を並べたものを意味する.プ 
ログラムの実行時には，この命令列をメモリに格納し， 
コンピュータの動作を開始させる.すると，これまで 
に示した手順で命令が処理されていく.命令処理には 
データが必要なので，昔から，プログラムとはアルゴ 
リズムとデータ構造を合わせたものである，とよく説 
明される. 

さて，機械語は0と1のビット列なので人間には理 
解しにくい.それを人間が理解しやすくするために意 
味をもった（英語に近い）記号に対応させて扱う.っま 
り ， MOV (転送）とか ADD (加算）といった記号で機械 
語を代表させる.これらの記号をニーモニックと呼ぶ. 
ニーモニック を使用してプログラムを書くための手段 


がアセンブリ言語である.アセンブリ言語を機械語に 
変換するしくみ（これも結局はプログラムである）がア 
センブラである. 

アセンブリ言語は，人間に理解しやすくなっている 
とはいえ，所詮，機械語とほぼ1対1に対応している 
ものなので，機械語そのものである.個々の命令機能 
が単純すぎて複雑なアルゴリズムを記述するためには 
向いていない.そこで考案されたのが，人間の思考を 
反映させやすくした 高級 言語である.「高級」という 
のは「飛び抜けた」という意味ではない.言語仕様が 
機械語にどの程度近いかの指標であり，アセンブリ言 
語は低級言語といわれる.その対極としての「高級」 
である. 

まとめ 

この章を執筆していて，何だかコンピュータの教科 
書を作っているような幻想にみまわれた.コンピュー 
夕の教科書にはいろいろな知識が詰まっているが，そ 
の項目があまりにも多いので，ややもすると本質を見 
失いがちである.本書の目的は MPU のしくみを直感 
的に理解しようというものなので，2進数やブール代 
数といった一般の教科書に載っているような事項は解 
説しない. 

本章は，いわば導入あるいは概説である.次章から 
各論に入る. 
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もっとも基本的なプロセツサ高速化技法 

パイプライン処理の班念と実際 


■11.1111 ■ 棚 ffli 


パイプラインとは MPU の命令実行を高速化する手法の一つであり，現在では，ほとんどすべての MPU で採用 
されている. RISC のパイプライン処理は，見事なまでにヘネシー&パターソンが提唱した5ステージのパイプラ 
インにしたがっている（通称へネバタ本を参照のこと） • 前半では一度に1命令を実行する通常のパイプライン（シ 
ングルパイプライン）についての基本概念を説明する. 2命令以上を同時実行するものはスーパースカラと呼ぶが， 
これと対比する場合はユニスカラパイプライン，あるいは単にスカラパイプラインとも呼ばれることもあるよう 
だ.後半ではシングルパイプラインの代表とも言える R 3000， SH シリーズ， ARM , V 800 シリーズのパイプライ 
ン構造を解説する. 



7パイプラインとは 


•流れ作業=パイプライン 

コン ピュータの性能を向上させる方法に ついては， 
いろいろ考案されている.パイプラインとは，ハード 
ウェア を並列化して性能を向上させるための一般的な 
手法である.その基本的な考え方は， プログラム 内蔵 
方式を提唱した フォン • ノイマンに よってすでに提案 
されていたという.たとえば， MPU の命令実行に比 
ベて10倍以上も遅い メモリアクセス が存在する状況 
下で効率的に命令の処理を行うために，命令の実行と 
メモリアクセスを オーバ ラップ して処理することが 考 
えられた.これが， パイプライン 処理の原型である. 

パイプラインの基本的な考え方はごく自然なもので 
ある.なにもコンピュータの技術に固有なものではな 
い.自動車の製造ラインや電子部品工場などで行われ 
ている流れ作業は，パイプラインそのものである.一 
つの製品が数分後ごとに完成していくようすを思い浮 
かべてほしい.実際，パイプラインの呼び名は，石油 
が次々とパイプを通過していく石油化学ノヽ°イプライン 


と動作が似ていることに由来している. 

各工程が1単位時間かかる； V 工程からなる処理を考 
える.単純に考えると，この処理を終了するためには 
/ V 時間を要する〔図1 ( a ) 〕•これを W 人の人が流れ作業 
によって各工程を分担し，前の工程から受け継いだ製 
品に1単位時間で加工を施して，後の工程に引き継ぐ 
ようにする〔図 1( b )〕. この場合，もともとの処理で 
は 7 V 時間に一つしか製品が完成しないが，流れ作業で 
は見かけ上，1単位時間に一つの製品が完成すること 
になる.つまり，処理速度は; V 倍に改善される.これ 
がバイプラインの原理である. 

•ステージ，段数，八ザード 

ここで，各工程をバイプラインのステージという. 
「段」という表現も使われ，/ V 工程から構成されるパ 
イブラインは W ステージパイプライン，または/ V 段パ 
イプラインと呼ばれる.また，あるステージを分担す 
る人が手間取って，そこでの処理を1単位時間以内に 
終わらせることができないような場合は，パイプライ 
ン処理に乱れが生じ，処理性能が低下する.パイプラ 
インステージでの処理を単位時間内に終わらせること 
を阻害する要因をハザードという. 
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第 2 章パイプライン処理の概念と実際 


時間11 

2 1 

3 

工程 

1 


2 


3 


( a ) / V 工程からなる処理 


時間 | 1 | 2 | 3 I ， … I N 



に処理に処理に処理 に処理 に処理 

する人する人する人 する人 する人 

( b ) パイプラインによる処理 


図1パイプライン処理の概念 


パイプライン処理をコンピュータに適用する場合 
は，各 ステージが 並列に処理できることが前提である. 
ハードウェア 資源を共有する ステージが あると， ハ 
サードが 生じ，待ち合わせが必要になる（これをス 
卜ー ルという）.逆にいうと， ハードウェア 資源が競 
合しないようにパイプライン ステージを 分割するのが 
プロセッサ設計者の腕の見せどころである. 

パイプライン処理は，まず大型計算機で採用された. 
その後，半導体の集積技術が進み， MPU でも大量の 
トランジスタが利用可能になると， MPU にも採用さ 
れるようになる.パイブライン処理の採用を大々的に 
表明した MPU は， NEC の V 60 が最初ではないかと筆 
者は記憶している.それ以前の Intel の8086でもオペ 
ランドフェッチと実行をパイプライン化していたが， 
Intel がパイプラインを明言したのは80386以後（最近 
の Intel の発言では Pentium 以降）となっている.一方， 
68000系の MPU も古くからバスサイクル同期のパイプ 
ライン処理をしていたようである.しかし，こちらも 
パイプラインを明言したのは68060が初めてだったと 
思う. 68060はすでにスーパースカラ構造になってい 
たので，シングルパイプライン時代の68000系のパイ 
プライン構造は不明である. 

2 パイプラインの理論 

• パイプライン ステージ 

CISC 初期においてもパイプライン構造を採用して 
いるものがあった.しかし，それらの MPU において 
パイプライン処理は有効に機能していたとはいえな 
い.各 MPU メーカーがパイプラインを強調しなかっ 
たのは，それが性能に寄与していなかったからではな 
いかと考えられる.しかし， RISC の登場によってパ 


イブライン処理はにわかに脚光を浴びる. RISC のパ 
イプラインは， CISC とは異なり，全命令でパイプラ 
インの ステージ 数は固定であることが 多い. 筆者だけ 
の感覚かもしれないが，命令フヱッチ，命令デコード， 
実行という処理の流れも，その区切りが明確になって 
いるように感じる. 

RISC の存在意義は，パイプライン処理をいかに効 
率的に実現できるかにかかっているといっても過言で 
はない.このため， RISC では命令やオペランドをキ 
ャッシュからフヱッチすることを前提としている.通 
常のメモリはアクセス時間が遅いので，メモリアクセ 
スステージの処理時間が他のステージに比べて長くな 
り，効率的なパイブライン処理を行うことはできない. 
ステージの処理時間を均一化するため，キャッシュの 
導入は必然だったといえる•キャッシュの導入により， 
メモリアクセスステージが1または2クロックという 
固定クロック数で処理できるようになった. 

RISC のパイプラインは， コンピュータアーキ テク 
チャの有名な教科書で学ぶことができる.それが， 
Hennessy と Patterson による『コンピュータアーキ 
テクチャ』（通称へネパタ本)である.この教科書では， 
仮想的な MPU として DLX (デラックスと発音する）と 
いう MPU を定義し，そのパイプラインとして次の5 
ステージの処理が提案されている.もっとも DLX は 
MIPS の R 2000 / R 3000と非常に近い（同じ？）構造をし 
ており，以下は R 3000のパイプラインそのものという 
こともできる.ただし，へネパタ本ではメモリがキャ 
ッシュであることをとくに強調してはいない. 

• RISC のパイプライン処理 

RISC のパイプライン処理を 図 2に示す.パイプラ 
インが スムーズに 動作する場合は，全 ステージ 数と同 
じ数の命令が(理論的には）同時実行できる. 
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( a ) ステージと機能ブロックの関係 
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図2 RISC のパイプライン処理 （ b ) スムーズなパイプラインの流れ 


(1) 命令フェッチ （ IF ) 

命令キャッシュから命令を取り出す. 

(2) 命令デコード ( RF ) 

フェッチした命令をデコードする.同時にレジスタ 
オペランドをフェッチする. 

(3) 命令実行 ( EX ) 

デコ ー ド結果とフェッチしたレジスタの値を基に命 
令を実行する.ロー ド/ストア命令の場合は実効アド 
レスの計算を行う.分岐命令の場合は分岐先アドレス 
を計算する. 

(4) オペランドフェッチ （ MEM ) 

EX ステージで計算したアドレスに対応するメモリ 
の値をデータキャッシュからリードする. 

⑸ライトバック （ WB ) 

EX ステージで計算した結果，または MEM ステー 
ジでフェッチしたオペランドをレジスタに格納する. 
ストア命令の場合はデータキャッシュにライトする. 

上のバイプラインではアドレス変換のステージがな 
いが，これは IF または MEM ステージに先立って行 
われる.この詳しい説明は後半で解説する R 3000のパ 
イプラインの実際の項に譲る. 

RISC のパイプラインの特徴は，アドレス計算をす 
る専用のステージがなく， EX ステージで代用してい 


る点である.このため，アドレス計算用の演算器と命 
令実行用の演算器(実際は加算器）をそれぞれ別個に用 
意する必要はない.これは RISC の「ロード/ストア 
アーキテクチャ」という特徴に由来する.つまり，一 
つの命令では2回加算を行うことがない，1命令で1 
回だけ演算器を使用するという制限の下で，レジスタ 
とレジスタ間の加算，または，アドレス計算（ロード/ 
ストア命令）は別の命令に分かれて定義されている. 

• データハザードとフォワーディング 

バイブラインの処理が乱れるハザードは， RISC の 
パイプラインでも発生する.それを詳しく見ていこう. 
まずはレジスタの依存関係に起因するハザードであ 
る.レジスタ間のリード/ライトの前後関係で，次の 
4種類が考えられる. 

(1) RAW (Read After Write ) ハザード 

これは，レジスタライトの完了前に後続命令によっ 
て同一のレジスタをリードしようとした場合に生じる 
(図 3). 

(2) WAR (Write After Read ) ハザード 

これは，レジスタから値をリードする前に後続命令 
によって同一のレジスタにライトをしようとした場合 
に生じる. 

(3) WAW (Write After Write ) ハザード 
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( a ) 前の命令の結果 （R3) 
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図3 RAW (Read After Write ) ハザード （ b ) 前の命令の結果 ( R 3) を2命令後の命令で使用する場合 


これは，同ーレジスタへのライト順序が狂う場合に 
生じる. 

(4) RAR(Read After Read ) ハザード 

-応挙げたが，レジスタへの変更がともなわないの 
で，このようなハザードは存在しない. 

以上はデータに起因するハザードなので，総称して 
データハザードと呼ばれる.しかし， （2) および (3) 
のハザードは命令の実行順序が狂わない限り発生しな 
い.通常のパイプラインでは発生しないが，スーパー 
スカラ構造では発生することがある.これは後半で説 
明する. 

当面の課題は （1) の RAW ハザードである.これは， 
フォワーディング， バイパス， または，ショートサー 
キットと呼ばれる手法で解決可能である.つまり， 
EX , MEM , WB ステージから RF ステージへのバイ 
パス 回路を設けることで解決できる（図 4). RISC で 
は，パイプライン処理を乱さないために，フォワーデ 
ィングはなかば常識である. 

しかし，パイプラインのステージ 数が 多い 場合，具 
体的には，レジスタをフヱッチす る ステージ （ RF ) と 
レジスタへの書き込みステージ （ WB ) の間の段 数が多 
いと， 各 ステージから RF ステージへのバイパス 経路 
がその段 数分 必要なので， 実行 ステージ （ EX ) へ 与え 
る データのセレクタが巨大になってしまう.これは 
もちろん 動作周波数に も 影響を与える. どの 程度 フォ 
ワーデイングを行うかは悩むところで ある. 


• □ー ド遅延と遅延□ー ド 

ロー ドした値を直後の命令で使用する場合を考え 
る.この場合， MEM ステージで値が初めて確定する. 
このとき後続命令は EX ステージにあるのでフォワー 
ディングは不可能である〔図 5( a )〕. なにも対処しな 
いと変更前のレジスタの値をフェッチしてしまう.こ 
の待ち時間をロード遅延という. 

このため，ブログラムの意図どおりに命令を処理す 
るには，パイプラインのインタロックが必要となる. 
インタロックとはハザードの有無をテストし，ハザ ー 
ドがある場合はハザード原因が解決するまでパイプラ 
インを停止する機構である. 

また，停止しているサイクルをパイプラインストー 
ル（パイプラインバブル）と呼ぶ.図2で示す5ステー 
ジ構成のパイブラインなら1クロックストールさせれ 
ばよい〔図 5( b )〕. 

パイプラインのストールは，処理性能の低下を意味 
する.それを回避する手法の一つは，プログラムの意 
図を損わない範囲で命令の順序を入れ替えることであ 
る.いまの場合，1クロック分 （1 命令分)待ち合わせ 
ればいいので，ロー ドした値を參照する命令と後続の 
無関係な命令を入れ替えればよい. 

入れ替えるべき適当な命令がない場合は， NOP 命 
令を挿入することになる 〔図 5( c )〕. この手法はデ ー 
タ ハザードの 回避に も有効で ある.このような命令入 
れ替えや命令挿入を，命令スケジュールと呼ぶ. 
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(c) NOP 命令を挿入 


図5遅延口ード 

RISC のアセンブラは命令スケジュールを当然のよう 
に行っている（禁止の設定も可能）.つまり，アセンブ 
ラが「勝手に」最適化するので，プログラマが書いた 
とおりの順序でコード生成が行われるとは限らないの 
である.この事実を知ったとき，筆者は少々衝撃を受 


けたが，いまでは慣れてしまった. 

RISC は制御構造の単純化を目標としているから， 
インタロックは歓迎すべきものではない.ロード遅延 
をそのまま許し，アセンブラによる命令スケジユー 
ルによってのみストールを回避しようという考えが' 
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第 2 章パイプライン処理の概念と実際 


図6遅延分岐 


分岐命令 
分岐先命令 



ス I -ール 

( a ) 制御ハザード 



( b ) 遅延スロットを設けるとス I ルがない 


3 4 



後続命令をフェッチしておけば NOT TAKEN 
の場合に遅れなしで命令実行を継続できる 
( c ) 分岐先フェッチタイミングを緩くするとス I ルが発生する 


ある.これが遅延ロードである. MIPS の R 2000/ 
R 3000は遅延ロー ドを許すアーキテクチャを採用して 
いる. 

ただし， R 4000からはインタロックするアーキテク 
チャに変更された.これは，現実問題として，命令の 
並び替えができる場合が少なく，多くの場合は NOP 
命令が挿入されてしまうからであろう. NOP 命令の 
挿入により，全体としての命令処理は1クロック余分 
にかかるが，これはストールで1クロックインタロッ 
クしても同じである.それなら NOP 命令がない分， 
命令コードのサイズを小さくできるという利点がある. 
•制御八ザード 

パイプライン処理を乱すハザードにはデータハザー 
ドのほかに制御ハザードがある.これは分岐によるハ 
ザードである.ブランチハザードともいう. RISC で 


は，条件分岐は汎用レジスタの値で分岐条件を決定す 
る. MPU によっては， CISC と同じく条件フラグを採 
用しているものもある.この場合の制御ハザードはフ 
ラグハザードともいう. 

さて，条件分岐の場合，分岐条件が確定するまで分 
岐先の命令フェッチができない〔図6 ( a )〕. これによ 
るストールは命令スケジュール（条件確定を早くする） 
で回避できる場合もある. 

条件フラグを使用する場合でも命令スケジュール可 
能だが，そのアルゴリズムは非常に難しい. RISC が条 
件フラグを採用しない理由の一つは，コンパイラでの 
命令スケジュールを簡単にするためである.なお，条 
件分岐で分岐条件が成立して分岐することを TAKEN , 
分岐条件が成立せず分岐しないことを NOT TAKEN 
(あるいは NO TAKEN ) という. 
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図 7 命令デコードが2ステージの場合 
の制御ハザード 



ストール 


• 遅延分岐 

パイプライン処理を乱さないため，ストール期間中 
も（通常は無効化してしまう）分岐命令の後続命令（こ 
れを遅延スロットという）を実行させるという考えが 
ある.図2に示すパイプラインでは， EX ステージで 
TAKEN/NOT TAKEN が決定される.したがって分 
岐先の命令フェッチは，1クロックのストール後に実 
行可能である. 

TAKEN する場合，通常なら分岐命令の後続命令は 
実行を禁止しなければならない.しかし，その遅延ス 
ロットの命令を実行してから，分岐先の命令をフェッ 
チする構造にすれば，パイプラインはストールする必 
要はない〔図 6( b )〕. TAKEN しない場合は，もとも 
とストールしない.これを遅延分岐と呼ぶ. 

このような遅延スロットを設ければ，命令スケジ 
ユールを行うことができる.分岐命令の前方にある命 
令を遅延スロットにもってくることで，分岐命令によ 
るストールはなくなる.ただし，遅延スロットに入れ 
る適当な命令がない場合は， NOP 命令を入れること 
になる. 

R 2000 / R 3000のパイプラインはこのようになってい 
るが，現実問題としては，分岐命令の分岐先アドレス 
も EX ステージで計算される（したがって，分岐条件 
を判断するための専用の演算器が別個に必要である） 
ため，それとほぼ同時に分岐先を命令フェッチするの 
はタイミング的に厳しい.動作周波数を向上させるた 
めには，遅延分岐を採用しっっも，もう1クロック遅 
れさせるのが望ましい〔図 6( c )〕. このあたりをうま 
く回避するのが回路設計技術であるということもでき 
るが….一般的には，分岐予測を行うことでストール 
を解消することが可能である. 

さて，制御ハザードでは TAKEN の決定が遅いほ 
どストール期間が長くなる.これはステージ数の多い 
パイプラインで顕著になる.たとえば，可変長命令を 
採用する x 86 のような MPU においては命令デコード 


に時間がかかる.一般的には，パイプラインで少なく 
とも2ステージ分が必要である. 

たとえば， 

IF RF 1 RF 2 EX MEM WB 
の 6 ステージからなるパイプラインを考える. 
TAKEN の決定は EX ステージなので，これまでの説 
明より1クロック遅いことになる.このとき分岐命令 
でのストールは2クロックである（図 7). 1クロック 
を遅延スロットで埋め合わせるとしても，さらに1ク 
ロックだけ処理に余計な時間がかかる.あとで述べる 
スーパー パイプラインでは， EX ステージより前のス 
テージ数がさらに増加し，分岐命令のストールによる 
性能低下は深刻なものとなる. 

• 分岐予測 

分岐命令の処理を高速化するために，分岐予測とい 
う機構が採用される.これは，分岐先アドレスをパイ 
プラインのより早い ステージで 生成し，分岐先の命令 
フェッチを早期に行う手法である.具体的には，分岐 
ターゲットバッファ （BTB : Branch Target Buffer ) , 
または分岐予測テーブル (BPT : Branch Prediction 
Table , BHT : Branch History Table ) と呼ばれるキ 
ヤッシユを用意し，分岐命令のアドレス，分岐履歴情 
報，予測される分岐先アドレスを格納しておく. 

命令フヱッチ時 ( IF ステージ）に BTB を參照し，ヒ 
ット（登録してある分岐命令のアドレスと命令フェッ 
チアドレスが一致）すれば，分岐履歴情報にしたがっ 
て，分岐先アドレスを出力し，命令フェッチを行いな 
がら， TAKEN/NOT TAKEN の判定を待つ.予測が 
成功すればフェッチした命令をそのままデコードすれ 
ばよい. 

予測が失敗すれば，実際に EX ステージで計算され 
るアドレスから命令フェッチをやり直し， BTB の分 
岐履歴情報を更新する（図 8). BTB にヒットし予測が 
成功する場合はストールがなくなる. BTB にヒット 
しない場合は，分岐予測を行わない場合と同じタイミ 
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図 8 分岐予測 
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ングで分岐命令が処理される. 

しかし， BTB にヒットするのに予測が失敗する場 
合は，何もしない場合に比べて，パイプラインの回復 
処理にかえって時間がかかってしまうことがある.こ 
れが，分岐予測失敗時のペナルティである.したがっ 
て，分岐予測を採用しても予測が失敗ばかりすると， 
かえって性能が低下するのでヒット率を向上させるた 
めの工夫が必要である. 

図8のパイプラインのモデルでは BTB にヒットす 
ると予測した分岐先アドレスから命令フェッチを行う 
が， MPU によっては（予測する）分岐先の数命令を 
BTB に格納しておき，そこから命令をフェッチする 
方法を採用する.こうすることにより，パイプライン 
は予測していない方向の命令も同時にフェッチできる 
ので，分岐予測が失敗した場合のペナルティを最小化 
できる. 

また，分岐予測の成功する確率が高いと思われる場 
合は， TAKEN/NOT TAKEN が決定するまで，予測 
した分岐先から命令をどんどん先取り（プリフヱッチ） 
する手法もある.パイプラインのステージ数が大きぐ 
TAKEN/NOT TAKEN の決定がパイプラインの遅い 
(後段の）ステージで行われる場合，予測が成功すれば 
効果的である.逆に予測が失敗したときのペナルティ 
は大きくなる.分岐予測の成功率によほどの自信があ 
るか，失敗時の回復処理がかなり高速化されてないと 
採れない方式であるが，最近の MPU ではけっこうポ 
ピユラーで ある. 

• 分岐予測の方法 

予測の方法は分岐履歴情報による場合が多い.これ 
は分岐する確率を示す1〜2ビットのフラグであり， 


BTB に登録されている分岐命令ごとに存在する.分 
岐履歴情報が1ビットの場合は1であるとき「分岐す 
る」，0であるとき「分岐しない」と予測する.これ 
は，その分岐命令が過去1回で分岐したか否かを示し 
ている.つまり，以前分岐した分岐命令は今回も分岐 
すると予測するわけである. 

分岐履歴情報が2ビットの場合はもう少し慎重であ 
る.ビット列への意味のもたせ方はいろいろ考えられ 
るが，たとえば，11，10で「分岐する」，01，00で 
「分岐しない」と予測する.これは，その分岐命令が， 
過去2回において何回「連続して」分岐したかを示す. 
分岐する傾向が大きい方向に予測するわけだ. 

なお，分岐する（と予測する）分岐命令のみを BTB 
に登録する方法もある.この場合は分岐履歴情報は 
不要で， BTB にヒットすれば「分岐する」，ヒットし 
なければ「分岐しない」と予測する.この場合，分 
岐予測が成功する確率は，分岐履歴情報が1ビットの 
場合とほぼ同等であるが， BTB の回路規模は約半分 
になる. 

分岐予測を行わない場合で，分岐命令を高速化する 
方法として，分岐先と分岐元の命令を同時にプリフエ 
ッチする手法もある.これに関係する特許は，昔は山 
のようにあった.この方法は回路規模が大きくなるた 
め，あまり現実的でない.といいつつも， Intel 系の 
MPU (とくに IA -64) ではそのような説明をよく目にす 
る.ただし，具体的な実装方法は不明である.米国の 
特許をよく調べればわかるかもしれない. 

• 構造八ザード 

構造ハザードとは，パイプラインの 二つ 以上のス 
テージが一つ しかない ハー ドウ ヱア 資源を取り合うた 
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図 9 実行ステージが長いパイプライン 


IF 


RF 


EX ステージが 終了しないので 
後続命令は ノ （イプライン ステ 
ージを進めることができない 


めに生じるハザードである.たとえば，5ステージで 
構成されるパイプラインでは，1時刻に五つすベての 
ステージが実行される可能性がある.もし，各ステー 
ジで同一の演算器などを使用する場合は競合するの 
で，優先されるステージ以外は待ち合わせをする必要 
がある. 

RISC の場合，ほとんどのハードゥヱア資源は競合 
しないように設計されているのであまり問題はない. 
しかし， 例外 もある.それはキャッシュ（あるいはメ 
モリ）である.図 2( b ) をもう一度見ていただきたい. 
時刻4において 命令 1.の MEM ステージと 命令 4の IF 
ステージが重なっている.もし， 命令 1がロード/ス 
トア 命令で あり， 命令と データキャッシュの区別がな 
く単一のキャッシュしかない場合は， if ステージも 
MEM ステージもキャッシュアクセスなので，資源の 
競合が生じる.キャッシュが存在しない場合もメモリ 
アクセスの競合が生じる.この場合は，先にある 命令 
1の MEM ステージを 優先 させ， 命令 4の IF ステージ 
をインタロックして待ち合わせることになる.これは， 
できるだけパイプラインをインタロックさせないとい 
う RISC の考え方に反する. 

そこで，多くの MPU では命令とデータを二つのキ 
ャッシュに分割して同時にアクセスできるようにして 
いる.これならアクセスの競合によるインタロックは 
発生しない.このように命令とデータの供給経路を独 
立させる方式をハーバードアーキテクチャという. 

なお，命令とデータに関しては ， TLB が一つしか 
ない場合，アドレス変換時にも資源の競合が生じる. 
それを避けるため，命令用とデータ用の TLB を独立 
に用意するアーキテクチャもある.多くの場合，命令 
はアクセスするアドレス範囲が小さい（あるいは連続 
している）ため，命令用の TLB をマイクロ TLB とし 
て，仮想アドレスと物理アドレスのペアを本当の TLB 
からキヤツシュして持っているのが普通である. 


• ステージの処理時間が不均一なパイプライン 

さて，パイプラインのステージ間の実行時間が均一 
でない場合を考える. RISC は命令を 1 クロックで実 
行するのが基本であるが，乗除算や浮動小数点演算な 
ど 1 クロックで実行するのが難しい場合もある. 

いま，実行ステージ (EX) の処理が 4 単位時間かか 
るものとする（図 9). この場合， EX ステージが終了 
するまで同時実行中の他のステージも待ち合わせをす 
るので，パイプラインのスループットは実行ステージ 
の処理時間に依存する.ほかのステージの処理時間は 
実行ステージの処理時間に隠れてしまう.実行ステー 
ジの処理時間が長いだけならまだよい.ほかのステー 
ジもまちまちな処理時間を有する場合はもっと悲惨で 
ある.不均一であればあるほど，パイプラインの処理 
時間は各パイプラインステージの処理時間の総和に近 
づいていく（パイプラインの意味がなくなる）.このた 
め，実行ステージ以外のステージの処理時間を均一に 
することが肝要である. 

パイプラインにおいて実行(処理)時間がかかるのは， 
特定命令の「実行ステージ」のほかに，メモリの速度 
に依存する「命令フヱッチステージ」や「オペランド 
フェッチステージ」がある. RISC は，キャッシュを 
採用することで命令フェッチやオペランドフェッチの 
処理時間を1クロックに押し込めようとしている. 

典型的な RISC である MIPS アーキテクチャにおい 
ては，全命令の実行クロックを1クロックとするため 
に，実行時間がかかる乘除算は，通常のパイプライン 
とは独立して並列実行する.そして，乗除算の結果は 
汎用レジスタではなく，専用のレジスタに格納される. 
つまり，乗除算命令では汎用レジスタ間のデータハザ 
ードは発生しない.このため，乗除算命令の処理は通 
常のパイプライン動作に影響を与えない.乗除算が完 
了した後で，専用レジスタから演算結果を取り出せば 
(専用レジスタから汎用レジスタへの転送命令が用意 
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f パイプライン処理 


乗算結果を取り出す命令 


IF 

RF 

EX 

MEM 

WB 


IF 

RF 

EX 

MEM 

WB 


乗算器（並列動作) 


乗算実行 結果 


( a ) インタロックが発生しない場合 


簡単のために乗算命令 
の実行時間を3クロック 
と仮定している. 
この場合，3命令空けれ 
ばインタロックが発生 
しない 


図10 MIPS の 
乗除算命令 


1 2 3 4 5 6 7 8 9 



( b ) インタロックが発生する場合 


されている）インタロックは発生しない. 

初期の MIPS プロセッサである R 3000 では，乗算と 
除算の実行時間がそれぞれ 12 クロックと 35 クロック 
である.乗算命令に関していえば，実行を開始してか 
ら12クロック後に結果を取り出せばインタロックは 
発生しない〔図 10( a )〕. プログラム的には乗算命令 
と結果を取り出す命令の間が12命令分空いていれば 

よい . 

一方，12クロック未満で結果を取り出そうとする 
と，アーキテクチャ的には不本意ながらインタロック 
してしまう〔図 10( b )〕. 現実的には乗除算命令と結 
果を取り出す命令の間はせいぜい 3 命令程度しか空け 
ることができないので，乗除算命令があるとほとんど 
の場合インタロックしてしまうのだが，コンパイラの 
頑張りによってはインタロックしない可能性を残して 
いる . 


Q パイプラインを効率良く動かす 
3 各種の方法 


• 効率的なパイプライン処理が可能になった理由 

歴史的に見れば，キャッシュメモリ（高速なローカ 


ルメモリ）がまだ高価で外付けのキャッシュすら現実 
的でなかった時代，プロセッサの処理はメモリからの 
命令フェッチにいちばん時間がかかっていた.当然の 
流れとして，プロセッサの性能を上げるためには，フ 
ェッチする命令数を減らすこと，1命令で行う処理を 
増やすことが考えられた.結果として，上述したよう 
に実行ステージが長くなる傾向になるのだが，多くの 
場合はいちばん時間のかかる命令フヱッチと，あまり 
時間のかからない命令のデコードおよび実行をオーバ 
ラップ(パイプライン処理）させて実行効率を上げるこ 
とが可能になる.これが，その時代の最適解であった. 
そして，これこそが CISC の考え方である. 

その後 RISC という選択肢が現れてきた背景には， 
キャッシュが一般的になり，命令フェッチがもはやプ 
ログ ラムの 実行に支配的でなくなったことがある.命 
令のデコード や実行時間が命令フヱッチ時間の影に隠 
れなくなり，実行する命令数よりも1命令の実行時間 
のほうが性能に対し支配的になった. RISC では，基 
本的に 1 クロック実行なので， CISC に比べて命令実 
行時間が 1/3 から 1/5 になる. 1 命令が単純な分，同 
じ処理に要する コード 量は増加するが， RISC になる 
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表 1 x 86 系 CPU の CPI と 
MIPS 値 


(a) x 86 系 CPU の CPI 


CPU 

CPI 

8086 

15.0 

80286 

6.0 

80386 

4.5 

i486 

1.7 


決まれば， 

周波数 (MHz 単位） + 

という計算式で， MIPS 値が求まる.この式で，上の 
x 86 プロセッサの MIPS 値を計算すると表1 ( b ) のよう 
になる. 


CPU 

MHz 

MIPS 

8086 

5 

0.33 

80286 

8 

1.33 

80386 

12 

2.67 

i486 

25 

14.71 

Pentium 

66 

110 


(b) x 86 系 CPU の MIPS 値 


ことによる命令数の増加はわずか30〜50%であると 
いうから，これを差し引いても性能は向上する. 

また， RISC では命令が基本操作に限定されている 
ので，コンパイラによる最適化が行いやすいという利 
点もある.まあ，現実には，基本的な命令だけで優れ 
た最適化ができるということを MIPS や SPARC 用の 
コンパイラが実証できたために RISC がメジャーにな 
ったともいえるのだが， CISC から RISC の流れは歴 
史の必然でもあった. 

• CPI と MIPS 値 

パイプライン処理における命令の実行効率を表す指 
標として， CPI (Clock cycles Per Instruction ) がある. 
これは1命令を実行するのに必要なクロック数であ 
る. RISC の当初の目標は，キャッシュと効率的なパ 
イプライン処理で CPI を1にすることにある.実際， 
RISC はキャッシュにヒットしパイプラインにインタ 
ロックがない場合は CH が限りなく1に近づく. Intel 
の MPU の平均 CPI に関しては，80386や i 486 を設計 
した技術者の一人である Patrick Gelsinger のレポー 
卜がある.それによると，表1 ( a ) のような値が出て 
いる. 

MPU が進化するにつれてパイプラインの効率が上 
昇しているのがわかる.さすがインテルというところ 
だろうか. i 486 で CPI が急激に改善したのは，キャッ 
シュの恩恵といわれている. CISC でありながら RISC 
並みのパイプライン処理を採用したことも一因であろ 
う.現在の Pen tium の CPI は 0.6 〜 0.7 であるという 
(ちょっと性能が良すぎる感もあるが)•これは次章で 
説明するスーパースカラの恩恵である. 

CPI は MIPS (Million Instructions Per Second ) 値と 
密接な関係がある. MIPS 値とは1秒間に実行できる 
命令数(100万命令単位）だから，動作周波数と CPI が 


実際に公表される MIPS 値は， Dhrystone MIPS (最 
近では DMIPS と略記されることもある）なので，も 
う少し高い値になっているかもしれない.これは， 
Dhrystone ベンチマークを実行した性能が， 1 MIPS 
相当の VAX -1 1/780の何倍であるかを表すものである. 

Dhrystone MIPS では，コンパイラの性能しだいで 
シングルパイプラインの MPU の CPI が1を割ること 
も多く，直感的ではない.しかし，現在実際に使用さ 
れている MIPS 値は Dhrystone MIPS が主流なので， 
慣れが必要である. 

もっとも最近の x 86 系は， MIPS 値の公表をやめて 
しまっている（表向きの理由はいろいろあるが，発表 
すると CPI の大きさが問題となるからだろう）ので， 
性能を比較するためには動作周波数に頼るしかない. 
各メーカーは独自の基準で従来品との相対性能を公表 
しているが'，異なるメーカー間での性能比較はできな 
い•いくら動作周波数が高くても CPI が悪ければ何に 
もならないのだが，メーカーや マスコミ はこの点を意 
図的にうやむやにしているようにも思える. 

Intel は Pentium 4 で 3 GHz 以上の動作周波数を実現 
した.実効性能は Pentium 4 と同等であるが，動作周 
波数では Pentium 4 に劣る AthlonXP を有する AMD 
は，周波数の大きさによる優位性のアピールから実効 
性能の優位性のアピール（モデル番号の採用）に方針転 
换した. 

• スーパー パイプライン 

MPU を高い周波数で動作させるためには，パイプ 
ラインの1ステージあたりで実行する論理を減少させ 
る必要がある.単純に考えると従来1ステージで実行 
していた処理を2ステージに分割することである.つ 
まり，高速な動作周波数になるにつれてパイプライン 
のステージ数が増加する傾向にある.いま，パイプラ 
インのステージを， 

IF 1 IF 2 RF 1 RF 2 EX 1 EX 2 MEM 1 

MEM 2 WB 1 WB 2 
として CPI を試算してみよう.図 11( a ) では4命令を 
8クロックで実行しているので CPI は 2.0 である•一方， 
図11 ( b ) では4命令を13クロックで実行しているので 
CPI は 3.25 である. スーパー パイプライン構成にする 


38 

















第 2 章バイプライン処理の概念と実際 


命令1 

叩 T3 ど 

口卩 -pd 


1 1 1 2 1 

1 3 
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5 1 6 1 

1 7 

1 8 

IF RF 

EX 

MEM 

WB 




IF 

RF 

EX 

MEM 

WB 









IF 

RF 

EX 

MEM 

WB 


叩 ti 4 


IF 

RF 

EX 

MEM 
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( a ) 通常のパイプライン 


図11 

スーパーパイプラインの効果 


叩 TI I 

叩 71 ど 

命令3 
□口令4 


1 1 1 

1 2 1 

3 1 

M 

1 5 

1 6 

い 1 

い | 
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1 10 1 
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IF1 

IF2 

RF1 

RF2 
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EX2 

MEM1 

MEM2 

WB1 
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IF 2 

RF 1 

RF 2 

EX 1 

EX 2 

MEM 1 

MEM 2 

WB 1 

WB 2 














IF 1 

IF 2 

RF 1 

RF 2 

EX 1 

EX 2 

MEM 1 

MEM 2 

WB 1 

WB 2 


IF 1 

IF 2 

RF 1 

RF 2 

EX 1 

EX 2 

MEM 1 

MEM 2 

WB 1 

W 巳 2 


( b ) スーパーパイプライン 


ことで CPI は約 1.5 倍に増加してしまう.しかし，動 
作周波数を2倍に引き上げることができれば実質的な 
性能は向上する.これがスーパーパイプラインの考え 
方である. 

スーパー パイプラインを最初に 採用 したのは MIPS 
の R 4000 である.これは当初 100 MHz 動作であったが， 
最終的には 250 MHz 動作を達成している.ほぼ同時期 
に登場した DEC の Alpha (21064) は 200 MIiz 動作を達 
成していた.これは1990年代の初めとしては驚異的 
な動作周波数だった.このため， Alpha は世界最高速 
の MPU としてギネスブックに登録された. 

最近では， 

動作周波数を上げる=パイプラインのステージ数 
を増やす 

という図式が常識のように語られるようになった. 
Intel の Pentium 4 ( Willamette ) は20 ステージの パイプ 
ライン構成で 2 GHz 以上の動作を目指した.そして， 
Northwood で 3 GHz を超えた. IP コアの分野でも， 
Lexra 社が LX 4189( MIPS 系）でパイプラインを従来の 
5 ステージから 6 ステージに 変更することで，初めて 
250 MHz 以上の動作周波数を達成したと発表した. 

動作周波数を上げるためにはパイプラインのステー 
ジ数を増やす必要があるのは本当だが，逆は必ずしも 


真ならずなので，そんな単純なものではない.しかし， 
これからの MPU 設計においては，パイプラインのス 
テージ数を増加して動作周波数をかせぎ，それによる 
CPI の増加は分岐予測を高度にすることで補っていく 
傾向になるのは間違いないだろう. 

• プリフェッチとデカップル ( decouple ) 構成 

命令フェッチが命令キャッシュにヒットする限り 
は，各サイクルごとに命令デコーダに命令が滞りなく 
供給されるので，プリフェッチして命令を FIFO など 
に蓄えておく必要はない.しかし，命令キャッシュミ 
スが発生すると命令供給が停止するので，パイプライ 
ンがストールしてしまう.それを防ぐためにプリフェ 
ッチは有効である.命令デコード以降のパイプライン 
処理とは，命令を絶えず独立にプリフヱッチしておけ 
ば命令デコードにおいても命令の供給が停止する頻度 
は少なくなる. 

命令キャッシュのミスが発生した場合，命令キャッ 
シュへの書き込みと同時に デコーダへ 命令をバイパス 
する「命令ストリーミング」もパイプラインのストー 
ルを低減させる方法の 一つで ある.しかし，命令スト 
リーミングでは，（通常は）パイプラインクロックより 
も遅いバスクロックに同期して命令供給が行われるの 
で，命令ストリーミング中の命令処理はバスクロック 
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ウェーブパイプライン 


パイプライン処理は，各ステージの処理を，通常，一 
つのクロックに同期させて進めていく.しかし，各ステ 
ージの純粋な処理時間は論理の複雑さに依存し，クロッ 
クで既定される時間ぎりぎりまでかかる場合もあれば， 
クロックで既定される時間より早く終わる場合もある. 

パイプラインのあるステージがクロックのサイクルよ 
り短い時間で終了する場合，その空き時間をむだにしな 
いような実装ができれば，相対的に処理時間を短縮する 
ことができ，見かけ上のクロック周波数を向上させるこ 
とができる. 

図 A を見てほしい. IF , RF , EX , DC , WB からなる 
5ステージのパイプラインを考える （ MEM ステージはデ 
一タキャッシュアクセスなので DC としている）.図に示 
すように，各ステージの処理時間を仮定する.ここでは， 
IF と DC がキャッシュアクセスで，もっとも遅いステー 


ジになっている. RF がデコードステージでその次に遅い. 
EX と WB はレジスタアクセスなので比較的高速である. 

従来のパイプライン方式では，図 A ( a ) のように5クロ 
ックかけて1命令の処理が終了する. このステージの 空 
き時間を詰めていくと，図 A ( b ) のように，4クロック程 
度で1命令の処理が終了する.処理時間が4/5になったの 
だから，同じ処理をする場合のスピードは 1.25 倍になる. 
つまり，見かけ上のクロック周波数は 1.25 倍になる. 

しかし， MPU の動作はクロック同期が基本であるが， 
各ステージを駆動するクロックの周期（周波数）さえ一致 
していれば，各ステージを同じタイミングで処理しなく 
ても，安定なパイプライン処理を維持することができる. 
単純には，ステージごとに独立なクロックを用意するこ 
とが考えられる.図 B にバイプラインのステージ数と同 
じ5相クロックを用いたパイプラインを示す. 


CLK 



図 A ウェーブパイプライン 
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第 2 章パイプライン処理の概念と実際 


この場合，5系統のクロックの周波数は同一であり， 
IF ステージは CLK1 ， RF ステージは CLK2, EX ステー 
ジは CLK3，DC ステージは CLK4, WB ステニジは CLK5 
に同期して動作している.このように多相クロックを用 
いることで，見かけ上のクロック周波数を向上させるこ 
とができる.このようなパイプライン構造をウェーブパ 
イプライン （wave pipeline =波打つたパイプライン）と呼 
ぶ.あるいは，最大レートパイプライン （maximum rate 
pipeline ) と呼ばれ，文字どおり，パイプラインの処理速 
度を最大限に上げることができる. 

ウェーブ パイプラインを行うためには いくつ か制限が 
ある.各 ステージのクロックが 一致して いない （ずれがあ 
る）ので ， WB ステージの 前の結果を RF ステージにフォ 
ワーデイングすることが難しい（図 C ). フォワ ーデイン 
グができなくなると，見かけ上の動作周波数は向上して 
も， ハザード により CPI が 増加してしまう. ウェーブ パ 
イプラインは， ハザー ドが発生し にくい 状況下でこそ効 
果を発揮する. 

ハザードが発生しにくい場合とは，どういう状況であ 


ろうか.これは，パイプラインに順次投入されていく命 
令間に依存性のない場合である.この例としてすぐに思 
い付くのは，多数のスレッドをパイプライン処理する場 
合である.スレッドとはプログラムのうちで並列実行で 
きる部分を抽出したもの（ゆえに，多くの場合，依存性は 
ない）である.たとえば，近年はやりの マルチメディアア 
プリケーシヨンはスレッドに分解するのに適している. 
このため，ウェーブパイプラインは多くの場合， マルチ 
スレッドの処理に適用される. 

ウェーブパイプラインは，大学 レベルでは 多くの研究 
がなされているが，商用のものはまだ存在しない.これ 
は多相 クロックを 使用す るた め， クロックの 遅延を合わ 
せ込むのが難しく，遅延解析に向かないためである.つ 
まり，安定量産できるための回路設計が難しいのである. 
さらに，多相 クロックの 場合，論理合成が難しく，手作 
業による専用回路設計が必要になる.それにかける工数 
に比して利益の見込みが少ないので，企業が実践するに 
は 苦しいものがある. 


CLK 1[ 




( a ) フォワーディングあり 



( b ) フォワーディングなし 

図 C 演算後のフォワーディング 
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同期に近くなり，効率があまりよくない.プリフェッ 
チは，命令キャッシュミスの発生が契機となるわけで 
はなく，無条件に命令フェッチを行っていくので，命 
令ストリーミングよりも効率がよい（はずである）. 

シングル パイプライ ン ではあまりお目にかからない 
が，デカップル方式という構成がある.これは，プリ 
フェッチとよく似た概念であるが，命令デコードと実 
行 ステージの 中間に FIFO を置いて，その FIFO に絶 
えずデコード済みの命令を格納しておく.こうするこ 
とで，ソースオペランドが有効である限り， FIFO 内 
の命令は各 サイクル ごとに命令実行を開始することが 
可能になる.つまり，オペランドの依存性による命令 
デコー ド ステージでのストールが 緩衝されて見えなく 
なる（パイプライン効率が上がる）. 

当然，命令フェッチとデコードまでのステージと実 
行ステージ以降は別のクロックに同期し，独立して動 
く.パイプラインがデコードまでと実行以降に分離 
( decouple ) されていることで，デカップル方式と呼ば 
れている. 

デカップル方式の利点は，単純なプリフェッチとは 
異なり，命令デコードを行うので分岐命令を認識する 
ことが可能であること，そして分岐予測をしながら投 
機的 ( speculative ) に命令のプリフヱッチを行うこと 
ができる点である.単なるプリフェッチであれば，分 
岐する分岐命令以降にある命令をむだにプリフェッチ 
するおそれがある.分岐予測にしたがってプリフェッ 
チを行うことができれば，（分岐予測が当たる限り）命 
令フェッチの ロスは なくなる. 

このため，デカップル方式では，分岐予測が有効に 
働けば，バイプライン処理の中で，命令フェッチと命 
令 デコード ステージを無視することができる.たとえ 
ば，5ステージのパイプライン処理ならば，2ステー 
ジ少ない，3ステージのパイプラインと同等の効率で 
命令を処理できる. 

プリフェッチやデカップル方式での投機的なデコー 
ドは，実行ステージ以降で発生するパイプラインス 
トールの合間を縫って行われる.実行ステージ以降に 
ストールがまったく発生しなければ，プリフェッチ機 
構自身が無意味なものになってしまう.パイプライン 
効率は落ちないが，プリフェッチをしてもしなくても 
同じ効率にしかならないので，余分な回路ということ 
になる. 

実際問題として，シングルパイプラインではロード 
遅延とデータキャッシュミス以外では実行ステージ以 


降でのストールは発生せず，プリフェッチは，その回 
路規模の割には，性能は向上しないと思われる•しか 
し，2命令以上を同時に処理するスーパースカラにお 
いては，命令デコードの倍以上の速度で命令が処理さ 
れていくので，プリフェッチや投機的デコードの機構 
を用意しておかなければ命令供給が命令消費に追いつ 
かなくなる.デカッブル構造についてはスーパースカ 
ラの解説の章（第3章）で詳しく説明する. 

• 自己書き換えとパイプライン 

昔，8086や68000という MPU が全盛だった頃，プ 
ログラムのコード サイズを削減するために，命令 コー 
ド領域をストア命令で書き換えて実行するという技が 
重宝されていた.これは 自己 書き換えと呼ばれる手法 
である. 

自己書き換えは，パイプラインを採用する MPU で 
は期待どおりの動作をするとは限らない.それは，パ 
イプラインのステージを考えれば明らかで，書き換え 
た命令のフェッチ （ IF ) は書き換える命令のライト 
( WB ) 以降でなければならないためである.たとえば， 
IF RF EX MEM WB 
という 5 ステージ構成では，最低5命令以後を書き換 
えなければ，そこを正しくフェッチできない（図 12). 
また，命令のプリフェッチを行う場合に，一概に何命 
令後を書き換えれば大丈夫かということは保証できな 
い.書き換えた場所にジャンプしさえすればよいとい 
う考えもある.この方法も，分岐予測などで命令フェ 
ッチが先行する場合は，うまくいかないことがある. 

ところで最近の MPU は，命令キャッシュとデータ 
キャッシュが分離されているので，単純に命令コード 
を書き換えることはできない.ストア命令を実行して 
もデータキャッシュの内容が変更されるだけで，命令 
キャッシュの内容は変わらないからである. 

ただし， （ OS に限られるが)特権命令を使えば，書 
き換えたアドレスに対応する命令キャッシュの内容を 
無効化することで，自己書き換えを実現できる.もし， 
ライトバックキャッシュ構成ならデータキャッシュを 
最初に強制的にライトバックさせることも必要である. 

……と，自己書き換えを推奨するような説明をして 
みたが，最近のプログラミングではこの技法は好まし 
くないとされている.現在は MMU が内蔵され，十分 
大きなアドレス空間を使ってプログラムを作ることも 
可能なので，わざわざプログラムの流れを分かりにく 
くする自己書き換えを行う理由はない. 

とはいえ，仮想記憶のデマンドページングで行われ 
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るスワップインは壮大な自己書き換えではないかと考 
えると，〇 S なら自己書き換えをしてもいいのかとい 
う話も出てくる.リアルタイム 0 S などのプログラム 
のダイナミックリンクも，自己書き換えに近い. 
もっとも，有限オートマトンとしてのコンピュータ 


を考えれば，自己書き換えができるのは当然の機能/属 
性である.プログラムで行う自己書き換えと 0 S のペー 
ジングは粒度（書き換えから実行までの時間的空間的 
距離）の大きさの違いとして説明される.つまり，粒 
度の小さい自己書き換えは推奨されないということだ. 



ik 


R 3000のパイプライン 


• RISC の基本そのままのパイプライン 

R 3000のパイプラインは，基本的には前半の図2で 
示した RISC のパイプラインと同じである. IF ， RF ， 
EX , MEM , WB の5ステージで構成される.実際に 
は冶1，$ 2の2相クロックで動作し，1クロック間に 
2ステップの処理を行っている.図13に R 3000のパイ 
プラインの詳細を示す.各ステージでの動作は，次の 
ようになっている. 

1) IF 沴1 

マイクロ TLB ( ITLB ) を使用して命令の仮想アドレ 
ス （ IVA ) を物理アドレスに変換する.分岐先アドレス 
は RF ステージの¢2 で 計算され， EX ステージの(/>1 
でアドレス変換される. 

2) IF 0 2 

物理アドレスを命令キャッシュに転送し，命令キヤ 


ツシユをアクセスする （ ICache )• 

3) RF 0 1 

命令キヤッシユのヒット/ミスがチエックされ，命 
令キヤッシユから命令を読み出す ( ICache ). 

4) RF 0 2 

命令をデコードする （ ID ). 分岐命令の場合は分岐 
先アドレスを計算する.レジスタファイルをリードす 
る ( RF ). 

5) EX 0 1 + 0 2 

オペランドを他のパイプラインステージからバイパ 
スし，演算する （ ALU ). ストアするデータがあれば 
位置合わせを行う. 

6) EX 0 1 

分岐‘命令なら TAKEN/NOT TAKEN を決定する. 
ロー ド/ストア 命令なら オペランドの 仮想 アドレスを 
計算する （ DVA ). 

7) EX 0 2 

ロー ド/ストア命令なら TLB を使用してオペランド 
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図 13 R 3000 のパイプライン 


IVA : Instruction Virtual Address Generation 

ITLB : Instruction TLB Access (Address Translation) 

ICache : Instruction Cache Access 

ID : Instruction Decode 

RF : Register File Access 

ALU : ALU Operation 

DVA : Data Virtual Address Generation 

DTLB : Data TLB Access (Address Translation) 

DCache : Data Cache Access 

WB : Writeback 


の仮想アドレスを物理アドレスに変換する （ DTLB ). 

8) MEM 

ロー ド/ストア命令なら物理アドレスをデータキャ 
ッシュに転送し，データキャッシュをアクセスする 
( DCache ). 

9) MEM ¢2 

データキャッシュのヒット/ミスがチエックされ， 
命令キャッシュからオペランドを読み出す ( DCache ). 

10) WB ¢1 

EX ステージでの演算結果をレジスタファイルに書 
き込む （ WB ). ストア命令の場合はデータキャッシュ 
に書き込む. 

•単相ク□ック動作の R 3000 

R 3000相当の IP コアを提供する目的で後年に発表 
された，パイプラインを見直した 4 Kc ( Jade )，4 KEc 
( Emerald ) , 5 Kc ( Opal ) など（これらはコアの名称）は， 
単相クロック同期に変更しているが，基本的なパイプ 
ライン構造に変更はない.図 14 に R 3000と Jade , そ 
して Opal のパイプラインの比較を示す. R 3000のパ 
イプラインが図 13 と一部異なっているが，図 13 は説 
明用に簡略化したもので，図 14 は現実に近いものと 
理解すればいいだろう. 

図 14 に示すように，単相クロックでの再設計を考 
えた場合， R 3000は多くのクリティカルな操作（命令 
キャッシュアクセス，レジスタリード，データ TLB 
参照）をパイブラインクロックの立ち下がりエッジに 
同期して行っている.また，データキャッシュアクセ 
スはクロックの立ち上がり同期であり，データキヤッ 


シュからリードした データの 位置合わせ（図 14 の LA ) 
を同じパイプラインステージ内で行うので，タイミン 
グはかなり厳しい.命令のアドレス計算も，命令キャ 
ッシュアクセスの前後に，二つの1/2サイクルのアク 
セス （ IA 1， IA 2) に分割して行われるので，制御が複 
雑になる.これらが， IP コアとして容易に論理合成 
を行うためのボトルネックになっている.また， 
SRAM (キャッシュ）のアクセスタイミングも厳しく， 
キャッシュをメモリコンパイラなどで自動生成するの 
が困難である. 

このため， Jade ではパイプラインが再設計された. 
具体的には，すべての操作を1フヱーズ早めてクロッ 
クの立ち上がり同期にした.さらに，命令 TLB アク 
セスとデータキャッシュアクセスを1ステージ早くし 
て，リードデータの位置合わせをキャッシュアクセス 
と別のステージにもっていった.結果として，すべて 
のクリティカルな操作は立ち上がりエッジ同期になっ 
た.命令のアドレス計算は，命令キャッシュアクセス 
後の， 一つの パイプラインステージに統合された.こ 
れらの結果，データキャッシュアクセスのタイミング 
に余裕ができた. 

図 14 からわかるように，レジスタファイルへのラ 
イトを位置合わせの直後(立ち下がり同期）にすること 
で， パイプライン ステージ 数を5 ステージから 4 ス 
テージ にすることも可能である. しかし， Jade では 
クロックの立ち上がり同期にこだわり，結果として5 
ステージの パイプラインとなっている. 
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図14 R 3000と Jade の 
パイプライン比較 
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• Jade パイプラインの利点 

Jade パイプラインは三つの利点があるといわれて 
いる.一つ目は，キャッシュアクセスに余裕があるこ 
と.二つ目は，クリティカルな操作がすべて立ち上が 
り同期になっているので，ある論理ブロックをユー 
ザーが設計した論理に置き換えることが容易なことで 
ある.三つ目は，論理合成ツールによる遅延の調整が 
容易になることである.本来，論理合成を想定した 
機能設計は，クロック遅延のばらつき（クロックスキ 
ュー）を一定値内に収める操作を容易にするために， 
クロックの立ち上がりエッジのみを使用する.これを 
実践したわけだ. 

MIPS 社の発表によると， 0.25 が m プロセスで製造 
した場合の動作周波数は，最悪の場合(単純な論理合 
成）で100〜 150 MHz , 典型的な場合(専用設計)で150 
〜 255 MHz だそうである.クリティカルな操作を立ち 
上がり同期にしたとはいえ，パイプライン効率は 
• R 3000のそれと大差がないのも事実で，この動作周波 
数が可能なのか否かは実際に回路設計した人にしかわ 
からないだろう. 

MIPS 社は， Jade の拡張版の 4 KEc (コードネーム 
Emerald ) で MIPS 16 命令セットに対応すると発表し 
た.しかし，その実装方法たるや，1段のデコードス 
テージ内で MIPS 16 から MIPS 32 へのコード変換を行 
ってデコードするという，非常に厳しいタイミングを 


提唱している. Jade 開発当時の理念はどこへ行って 
しまったのだろうか.もっとも， 4 Kc と 4 KEc の構造 
的な違いは，低消費電力を実現するゲーテッドクロッ 
クを行うか行わないかの違いだけである. 

なお，先頃発表された PSP (Play Station Portable ) 
の CPU コアは 4 Kc または 4 KEc であって， R 4000系で 
はない. 

• Opal のパイプライン 

Opal ではさらにパイプラインが変更された. Opal 
のパイプラインは IF ， Dispatch , RF , EX , MEM , 
WB の6ステージで構成され， d ) 1,冶2の2相クロッ 
クで動作するとされている.しかし，論理合成を容易 
にするために単相クロックを採用しながらも説明上の 
方便のため冶1,冶2を使用しているのではないかと 
思われる. 

〇 pal 自身はスカラプロセッサだが，スーパースカ 
ラへの移行の可能性を残している.つまり，ディスパ 
ッチステージが命令フェッチとレジスタリード/命令 
デコードステージの間に挿入された.このためパイプ 
ラインは， Jade より1ステージ多い6ステージとなる. 
これは，将来的には，複数の演算ユニットに命令をデ 
ィスパッチ（発行)するために使用する.命令デコード 
自体にも余裕ができるので，動作周波数が少し向上す 
る.また，この追加ステージは MIPS 16 のためのプリ 
デコ ー ドステージとしても利用できる. 
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パイプラインのステージ数が増加することで分岐の 
性能が悪くなるが， Opal では静的な分岐予測と命令 
プリフェッチで対応している.分岐はすべて TAKEN 
するものと仮定し，投機的に6命令をフェッチできる. 
分岐予測が外れた場合のペナルティは1サイクルにす 
ぎないという（筆者としては懐疑的である）. Opal の 
パイプラインの詳細を以下に示す. 

1 )IF 01 + 02 

命令キャッシュにアクセスする （ ICache ). 命令の 
仮想アドレスは Dispatch ステージ （ IA 1) と RF ステー 
ジ ( IA 2) で計算される. 


き込む （ WB ). ストア命令の場合はデータキャッシュ 
に書き込む. 

• Jade と Opal の性能……どちらが高い？ 

MIPS の発表によると， Opal を0.15 " m プロセスで 
製造した場合の動作周波数は 450 MHz , 0.18 " m プロ 
セスでは 375 MHz だそうである. Opal では， Jade で 
わざわざ立ち上がり同期に揃えたデータキャッシュア 
クセスが立ち下がり同期に変更されていることもあ 
り，スーパーパイプライン構造も採用していないの 
で，本当にこんな高周波数で動作可能なのかは不明で 
ある. 


2) IF ¢2 

マイクロ TLB にアクセスし，命令の仮想アドレス 
を物理アドレスに変換する （ ITLB ). 

3) Dispatch 泠1 + 沴2 

命令キャッシュのヒット/ミスをチェックする 
(WS : Way Select ). スーパースカラ構成を採るた 
めの命令デイスパッチ用のタイミングを提供する 
( Dispatch ). MIPS 16 をサボートする場合のプリデコ 
ードタイミングを提供する （ MIPS 16). 次の命令のた 
めの命令の仮想アドレスを用意する ( IA 1). 

4) RF 0 1 + 0 2 

レジスタをフェッチする （ RF ). 命令をデコードす 


さらに MIPS の発表によると， Jade と Opal の性能 
( MIPS / MHz ) は，どちらも Dhrystone MIPS で 1.2 で 
あるという.これは R 3000 とほぼ同じ性能である. 
〇 pal に関しては，パイプラインのステージ数が増え 
ているのに， Jade と同じ性能というのは納得がいか 
ない. 4 KEc の発表では MIPS / MHz を 1.7 であった. 
Jade と実体は同じなのに，この性能アツプの理由は 
不明である.そもそも L 7 という値はスーパースカラ 
でないと実現できない. 

それはさておき，同じ性能の IP コアが二つも必要 
なのかという疑問は残る. MIPS の弁明では ， Dhry 
stone ベンチマークでは真の性能はわからない，実際 


る ( ID ). 

5) RF ¢1 

分岐先の仮想アドレスを計算する （ IA 2). 

6 ) EX ( p ^ + (p 2 
演算を行う ( ALU ). 

7) EX 0 1 

ロー ド/ストア命令のオペランドアドレスを計算す 
る ( DA ). 

8) EX 0 2 

データキャッシュへのアクセス （ DCache ). 1段目. 

9) MEM 01 

オペランドの仮想アドレスを物理アドレスに変換す 
る （ DTLB ) • データキャッシュへのアクセス （ DCache ) • 
2段目. 

10) MEM 0 2 

データキャッシュのヒット/ミスをチェックする 
( WS ). データキャッシュからフェッチしたデータと， 
データキヤッシュにストアするデータの位置合わせを 
する （ LA ). 


のアプリケーシヨンでは〇 pal は Jade の2倍の性能が 
あるという.これはキャッシュ容量を2倍にできる点 
と，64ビット演算と32ビット演算の差と説明されて 
いるが…… . 

Jade にしろ〇 pal にしろ，論理合成可能な RTL 
(Register Transfer Level ) 記述で提供されるのだが， 
目標動作周波数が達成できるか否かは， LSI 製造メー 
カーの技術力によると思う.しかし MIPS 社の説明で 
は， Jade にしろ Opal にしろ，何も特別なことを行っ 
ているわけではなく，誰が作っても 200 MHz 以上の 
性能は保証するとしている.また， Dhrystone ベンチ 
マークの 値が異様に高い理由としては，アーキテクチ 
ャを Dhrystone に特化しているらしい.実アプリケー 
シヨ ンではあまり効果がないが ， Dhrystone MIPS の 
値は採用の決め手になることが多いので，あえてその 
ような構造にしているという. 


5 


SH -1/ SH -2/ SH -3, 
そして SH -5 


11 )WB 01 + 02 • 16ビット固定長命令 RISC 

EX ステージでの演算結果をレジスタフアイルに書 SH シリーズはルネサステクノロジ（当時は日立製作 
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図 15 SH のパイブライン 

(小文字表記のステージはダミー 
ステージ） 
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レジスタ - レジスタ間演算 SH-l /SH-2 
SH-3 

□-ド命令 SH-1/SH-2/SH-3 
ストア命令 SH-1/SH-2/SH-3 
SH-4 のパイプライン（参考） 

SH-5 のパイプライン 


IF 

ID 

EX 



所）が 1992 年に発売した，組み込み用途をねらった 
RISC 型 32 ビッ トマイクロコン トロー ラとして誕生し 
た.その後，積和演算や MMU を内蔵し， MPU として 
の地位を確実にしている.多くの RISC が 32 ビットの 
固定長命令であるのに対して， SH シリーズは 16 ビット 
固定長命令を採用し コー ド サイ ズの削減を図っている. 

SH シリーズは DLX(R 300 0) のバイプラインを参考 
にしているといわれるが，命令によってパイプライン 
のステージ数が異なっている点で， CISC の考え方を 
引きずっているようにも思える. 

パイプラインは，次の 5 ステージから構成される. 
ステージ構成だけを見れば， R 3000 と同一である.ま 
た，遅延分岐は採用しているが遅延ロードは採用せず， 
データハ ザ ー ドが生じる場合はインタロックする. 

1) IF :命令フェッチ 

2) ID :命令デコード 

3) EX :命令実行 

4) MA : メモリアクセス 

5) WB ■•ライトバック 

IF, ID, EX の 3 ステージはすべての命令に存在す 
るが，命令によっては， MA, WB ステージがない場 
合もある.主なパイプラインを図15に示す.図を見 
るとわかるが，パイプラインは SH-1/SH-2 と SH-3 で 
少し異なっている.レジスタ-レジスタ間演算(転送を 
含む）は， SH-1/SH-2 では IF, ID, EX の 3 ステージで 
構成されるが， SH-3 ではデータを保持するだけの MA 
ステージと，レジスタへ値をライトするための WB ス 
テージが追加されて 5 ステージ構成になっている. 

私見だが，これらの命令において， SH-1/SH-2/SH- 
3 とも，レジスタのリードは EX ステージで行ってい 
るようである.そして，演算を行った結果は， SH- 
1/SH-2 では EX ステージのうちに， SH-3 では WB ス 
テージでレジスタにライトするようである. 


R 3000 のパイプラインを参考にした（といわれる）わ 
りには， EX ステージまでレジスタリードを遅延させ 
たり， SH-1/SH-2 では演算結果を EX ステージでレジ 
スタにライトさせたりするなど，タイミング的に厳し 
い設計になっている.これは，レジスタのフォワーデ 
ィングをまったく行っていないか，フォワーディング 
の論理を軽くするためと推測される.もっとも， SH- 
4 では ID ステージでレジスタをリードするようにな 
ったようで，試行錯誤の跡がうかがえる. 

さて，ロード命令はパイプラインの 5 ステージすべ 
てを使う. WB ステージは，最初はロードしたデータ 
をレジスタにライトするためだけに存在していたよう 
だ. SH-3 ではレジスタ-レジスタ演算にも適用された. 
一方，ストア命令はレジスタへのライトがないので 
WB ステージが存在しない.いずれにせよ，命令の種 
類に応じてパイプラインのステージ数を可変にするの 
は CISC の発想である.実質的にはパイプラインのス 
ループットは，最大のステージ数に支配されるのであ 
まり効果はない. 

そのことに気づいてか， SH-3 ではパイプラインが 
ほとんどの命令で 5 ステージ固定に改善された.しか 
し，ストア命令がなぜ 4 ステージのままなのかは謎で 
ある. 

• SH -5 

SH-4 では性能向上のために スーパースカラ 構成を 
採用したが， 1999 年に発表された SH-5 ではシングル 
パイプラインに戻した. 400MHz 動作を達成するため 
には， スーパースカラの 制御の複雑さが スピー ド上の 
ネックになるという理由からだ. 

SH-5 のバイプラインは， 

1) Fetch -1 ( F 1) :命令フェッチ 

2) Fetch-Decode ( FD ) :命令フェッチ&デコード 

3) Decode ( D ) :デコ-ド 
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(a) ヘネシー&パターソンのパイプライン 


プリフェッチ 
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ALU/ シフタ 

メモ U アクセス 


ュニッ ト 

レジスタリード 

乗算器 
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(b) ARM8 のパイプライン 


命令キャッシュ 

命令デコーダ 


ALU 

乗算器 

R 

DC 

R/S 



レジスタリード 

シフタ 


レジスタライト 


(c) StrongARM のパイプライン 


R : □- テート 

DC :データキヤツシユ 

R/S : □ーテート/符号拡張 


整数演算 


巳 T 巳 

Fetch2 

Decode 

Reg. File 

ALU 

State 

WB 



Fetch 1 



Shift 





BTB 1-Cache Decode Register Shift ALU 

□-ド/ストア 


BTB 

- Fetch2 

Fetch 1 


Decode 


Reg. File A[ _u 

Shift (Address) 


DCachel 


DCache2 


WB 


(d) XScale のパイプライン 


DCache 


図 16 ARM 系プロセッサのパイプライン 


4) Execute-1 (El) : 実行 

5) Execute-2 (E2) : 実行 

6) Execute-3 (E3) : 実行 

7) Writeback ( W ) :ライトバック 

の7 ステージで 構成される. 

El , E 2, E 3 ステージから D ステージへのフォワー 
ディングが可能だというが，だったら SH -4 までは 
「フォワーディングを行っていなかったのか」と突っ 
込みたくなるが， RISC であるからには，そんなはず 
はないだろう. 

パイプラインのステージ数の増加にともなう分岐命 
令の性能低下を補うため， SH -5 では Split Branch (分 
割分岐とでも訳すか？）という方式を採用している. 
これは，分岐先アドレスを計算して命令プリフェッチ 
を行っておき，実際の分岐命令でその命令を実行する 
という2段階の構造で分岐命令処理を実現する.その 
ために PT A (Prepare Target Address ) という命令が 
用意された. 

1999年に発表された SH -5 であるが，2002年になっ 
て初めて展覧会などでプロ ト タイプのデモが行われる 
ようになった.動作周波数は 400 MHz にはほど遠い 
256 MHz である. SH -6 や SH -7 についても計画が発表 
されているが，ここでは省略する. 


ARM / StrongARM/XScale 


• ARM 7 までと ARM 8 

最初の ARM アーキテクチャの MPU が開発された 
当時， RISC にはスタンフォード大学の MIPS と，力 
リフォルニア大学 バーク レー校の RISC I ， II (SPARC 
の母体）しか例がなかった. ARM はバークレー RISC 
を参考にして設計された.ロード/ストアアーキテク 
チャ，32ビット固定長命令，3オペランドフォーマッ 
卜という特徴を採り入れたが，レジスタウィンドウ， 
遅延分岐，全命令の1クロック実行は採用しなかった 
(ほとんどの命令は1クロックで実行するが).設計目 
標は， CISC ライクな命令セットを RISC に準じた単 
純なハードウヱアで実行することに置いている.命令 
セットの特徴はソースオペランドをシフトした後に演 
算可能なこと，ほとんどすべての命令が条件コードを 
変更し，条件コードに応じた処理が可能なことである. 

ARM には ARM 1 〜7， ARM 8, StrongARM とアー 
キテクチャに若干の差異がある. ARM 1 〜7は単純な 
3ステージのパイプラインを基本としていたが，その 
後は改良が重ねられ， ARM 8 で標準的な5ステージの 
パイブラインにたどり着く. 
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1 

2 
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( a ) ARM 9 
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加算 
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レジスタ 
ライト 

命令フェッチ 

デコード 

デコード 
レジスタリード 

シフト / ALU 
乗算 

乗算器 
(部分加算） 

レジスタ 
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ARM 9/ ARM 10 のパイプライン ⑹ ARM 10 


ARM8 では，バイプラインへの命令供給のバンド 
幅を向上させるため，命令のプリフェッチを行いバッ 
ファリングする.初代の ARM8 のプリフェッチユニ 
ッ ト には静的な分岐予測機能も内蔵されていたとい 
う.図 16( b ) に ARM8 のブロック構成を示す.パイ 
プラインは次の 5 ステージから 構成される. 

1) 命令プリ フェッチ 

2) 命令デコード，レジスタリード 

3) 実行（シフトと演算） 

4) メモリアクセス 

5) ライトバック 

• ARM9/ARM10 

ARM8 の後継である ARM9 のパイプライン は， 
ARM8 とほとんど同じである.その後継の ARM10 で 
はパイプラインに変更が加えられた（図 17). つまり， 
高い動作周波数を実現するために，デコード部と実行 
部のステージを 2 段に分割している. キャッシュ アク 
セスは 1.5 段分をかけてアクセス時間に余裕をもたせ 
ている.また，アドレス計算用の加算器を専用に持ち， 
ロー ド/ストアのパイブラインを整数演算系と分離し 
ている.これにより， データキャッシュはノン ブロッ 
キング（ヒットアンダミス）が可能になっている.さら 
に ARM10 では，パイプラインのステージ数増加によ 
る性能低下 (CPI の増加）を低減するため，動的な分岐 
予測が採用された. ARM 社は，これにより ARM10 
は ARM9 と同等な CTI が得られるとしている. 

• StrongARM 

ARM のパイプラインは ARM 社と DEC が共同開発 
した StrongARM (現在は Intel に買収されている）で一 
応の完成をみる.キャッシュの構成が命令とデータに 
分割された（命令とオペランドフェッチで待ち合わせ 
が生じない）こととレジスタのフォワーディング機能 
が追加されたのが特筆すべき特徴である.パイプライ 
ンは次の 5 ステージで構成される. 


1) 命令フエッチ(命令キヤッシユから） 

2) 命令デコードとレジスタリード，分岐先のアドレ 
ス計算 

3) オペランドのアドレス計算，またはシフトおよび 
演算を実行 

4) データキヤッシユへのアクセス 

5) レジスタファイルへ結果をライトバック 

図 16( c ) に StrongARM のパイプライン構成図を 
示す. 

ARM のパイプラインも命令ごとに可変なステージ 
数から始まり，結果として 5 ステージに落ち着いたよ 
うである.やはり， 5 ステージというのが RISC のパ 
イプラインの王道といえるのかもしれない（少なくと 
もこれまでは）. 

• XScale 

Intel から発表された XScale (かつて StrongARM2 
と呼ばれた）では， 600MHz (当初の目標）という高い 
動作周波数を実現するため，再びパイプラインの見直 
しがされた.結果，整数演算で 7 ステージ，ロード/ 
ストアで8ステージという構成になった〔図 16( d )〕. 
ステージ数はそれほど多くはないが，インテルはこれ 
をスーパーパイプラインと呼んでいる. 

パイプラインが2ステージ増えた理由は，おもに2 
本のクリティカルパス（タイミングネックになる論理 
経路）対策のためである.一つ目は ALU 演算である. 
従来の StrongARM では 1 クロックで 

シフト — ALU 演算—条件コードの生成 
を行っていた.これを 3 ステージに分割して処理する. 
こうすることにより，命令デコードにも余裕ができた. 
従来は命令デコードとレジスタアクセスを1クロック 
で行っていたが， 

レジスタアクセス—シフト 

のタイミングを，従来より遅らせて，余裕をもたせて 
いる. 
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図18 ARM 11 のパイプライン 
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ド/ストアパイプライン 


□-ド/ストアユニットはヒットアンダーミス動作 


二つ目はデータキャッシュのアクセスである.従来 
は，データキャッシュを， 

アドレスデコード—キャッシュアクセス-^ 

データの整列— ALU へ入力 
と1クロックで行っていた. XScale ではデータキャッ 
シュが従来の2倍の 32K バイトになったので，一度に 
動作する回路が多くなりクリテイカルパスになった. 
そこでデータキャッシュアクセスを2クロック （2 ス 
テージ）で行うように改良した. 

XScale ではパイプラインのステージが増加したた 
め，分岐命令の性能低下（当然，分岐予測機構は備え 
ている）などを考慮すると CPI が5〜8%増加するが， 
周波数を 1.5 倍に向上することで，差し引き40%程度 
の性能向上となる.なお，分岐ターゲットバッファは 
128エントリからなるダイレクトマップキャッシュ 
で，2ビットの情報で分岐の履歴を管理する. 

• ARM1 1 

一方， ARM 社は2002年4月に ARM11 の概要を発 
表した. 8ステージのシングルパイブラインで350〜 
500MHz 動作を目指す.明らかに XScale への対抗策と 
見てとれる.図18に ARM11 のパイプラインを示す. 
ARM アーキテクチャのクリテイカルパスは， XScale 
でも説明したが，シフト+ ALU の同時実行，キャッ 
シュアクセス，そして MMU にある.これらのステー 
ジを独立化することで，高速動作を実現できる.基本 
的な考え方は XScale のパイプラインとよく似ている. 

なお， Thumb-2 をサポートする ARM11 では，命令 
キャッ シュと デコー ド ステージの 間に位置合わせの ス 
テージが 追加されて9 ステージの パイプラインと なっ 


ている. Thumb-2 では32ビット長と16ビット長の命 
令の混在を許すので，命令の先頭アドレスを検出する 
ための ステージ である. 

7 V 800シリーズ 

V800 シリーズは NEC が V80 の後継として開発し 
た，どちらかといえば，マイクロ コントローラ といえ 
る MPU シリーズである.その開発目標は，低価格で 
低消費電力のチップであった. V800 シリーズでは基 
本の命令長を16ビットとしながらも，大きいビット 
数のイミデイェート値やデイスプレースメントの指定 
で コード 効率を上げるために，32ビットの命令長も 
用意している.ちょうど SH と ARM の中間のような 
アーキテクチャである. 

V800 シリーズは，1992年に最初の V810 が開発さ 
れ，その後 V830, V850 と続いて開発された.現在は， 
これらの MPU を CPU コアとした周辺内蔵品が販売さ 
れている. 

V810 のパイプラインに関しては，ユーザーズマニ 
ュアルには 記載され ていない.しかし，当時の雑誌の 
解説記事によると， 

フェッチ，デコード，実行，書き込み 
という典型的（と記述されている）な RISC のパイブラ 
インに対し，デコードと実行の間にレジスタリードの 
ステージを挿入した， 

1 ) フェッチ 

2) デコード 

3) レジスタリード 
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図 19 R 4000 のパイプライン 


IF : ICache First 
IS : ICache Second 
RF : Register File 
EX : Execute 
DF : DCache First 
DS : DCache Second 
TC : Cache Tag Check 
W 巳 ： Writeback 


IVA : Instruction Virtual Address 
ICache : ICache Access 
ITLB : Instruction TLB 
ID : instruction Decode 
ALU : ALU Operation 
DVA : Data Virtual Address 
DCache : DCache Access 
DTLB : Data TLB 


4) 実行 

5) 書き込み 

という構成だという.これは，可変長の命令フォーマ 
ットをデコードするのに長い処理時間が必要であり， 
デコードに余裕をもたせるためと説明されている.合 
計5ステージ構成のパイプラインであるが，これは33 
MHz 以上の動作周波数を想定したものであり，25 
MHz の動作周波数ではレジスタリードのステージは 
結果として不要だったようだ. 

しかし，このパイプライン構成では，ロード/スト 
ア命令でのオペランドフェッチステージがない.おそ 
らく，ロード/ストア命令の処理時には6ステージに 
なるのであろう. 

その後， V 830/ V 850 になるとパイプラインの見直 
しが行われ， 

1) IF :命令フェッチ 

2) RF :命令デコード 

3) EX :実行 

4) MEM :オペランドアクセス 

5) WB :ライトバック 

という5ステージのパイプラインになった.これは何 
度も説明している典型的な RISC のパイプラインと同 
じで，取り立てていうこともない.ただ1点，分岐命 
令は， TAKEN する場合， EX ステージの終了を待っ 
て IF ステージを開始する.これは前半の図 9( c ) と同 
じである.明らかに分岐先のアドレス計算から命令フ 
ェッチまでに時間的余裕をもたせているのがわかる. 
このため，分岐命令のレイテンシは3クロック（ N 0 
TAKEN の場合は1クロック）になる. 


V 800 シリーズでは遅延分岐を採用しないため，分 
岐が多いプログラムの処理は不利になる.また，歴史 
的には古い MPU のせいか，分岐予測機構も採用して 
いない.シンプルイズベストという考え方なのだろう. 



R 4000はスーパーパイプライン構造を採用し，高い 
動作周波数で動作させることを目的としている.パイ 
プラインは IF ， IS , RF ， EX , DF , DS , TC , WB の 
8 ステージで構成され，（筆者の予想では）単相クロ ッ 
クに同期して動作する.図 19 に R 4000のパイプライ 
ンの詳細を示す.各ステージでの動作は次のようにな 
つている. 

1) IF 

命令フェッチ1段目.命令の仮想アドレスが命令キ 
ャッシュと TLB に転送される. 

2) IS 

命令フヱッチ2段目.命令キャッシュが命令を出力 
し，同時に TLB は命令の物理アドレスを出力する. 

3) RF 

レジスタファイル.次の3動作が並行に行われる. 

a ) 命令をデコードし，インタロック条件をチェッ 
クする 

b ) 命令キヤッシュのヒット/ミスがチェックされる 

c ) レジスタファイルからオペランドをフェッチする 

4) EX 

命令実行.次の3動作の一つが実行される. 
a ) 命令がレジスタ-レジスタ間命令なら演算を実 
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行する 

b ) 命令がロー ド/ストア命令ならオペランドの仮想 
アドレスを計算する 

C) 命令が分岐命令なら，分岐先の仮想アドレスを 
計算する.同時に分岐の TAKEN/NOT 
TAKEN を決定する 

5) DF 

データキャッシュ1段目.オペランドの仮想アドレ 
スがデータキャッシュと TLB に転送される. 

6) DS 

データキャッシュ2段目.データキャッシュが値を 
出力する.同時に TLB はオペランドの物理アドレス 
を出力する. 

7) TC 

タグチェック.ロード/ストア 命令の 場合，データ 
キャッシュのヒット/ミスをチェックする. 

8) WB 

ライトバック.命令の実行結果をレジスタファイル 
に書き込む.ストア命令の場合はデータキャッシュに 
書き込む. 

R 4000の各パイプラインステージは基本的には1ク 
ロックであるが，時間がかかるキャッシュアクセスに 
は時間をかけている（タグチェックを含めて3クロッ 
ク）. R 4000の発表当時はスーパーパイプラインとし 
てクローズアップされたが，現在においてはごく普通 
のパイプライン構成である. 

R 4000ではパイプラインが8ステージになったた 
め，分岐命令の実行時に3クロック，ロード命令の実 
行時に2クロックの遅延スロットが生じる.分岐命令 
においては R 3000 と互換性をもたせるため遅延スロッ 
卜の1命令分は実行するが，残りの2クロックはパブ 
ル（むだな時間）になる.分岐命令の実行時間が R 3000 
の1クロックから3クロックになった（遅延スロットを 
含まない）と思えばよい. 

ロード命令においては遅延スロットに相当する後続 
2命令がロード命令のデスティネーシヨンオペランド 
と一致している場合はインタロックが生じる.つまり， 
R 4000では遅延ロードを採用しない.さすがに，ロー 
ド命令とその結果を使用する命令の間を2命令分も空 
けるのは現実的ではないと考えたのであろう. 

分岐命令の実行時間を短縮するため， R 4000では 
Likely 分岐 (Branch Likely ) が導入された. Likely 分 
岐とは，分岐条件が成立するときのみ遅延スロットの 
命令を実行する条件分岐命令である.分岐条件が成立 


しなければ遅延スロットは無効化される.遅延スロッ 
卜に NOP 命令があると考えてもよい.分岐命令が 
ループ処理の終わりにあるような場合，分岐命令を 
Likely にして分岐先の1命令を遅延スロットに置け 
ば，ループ内の命令が1命令分減少するので，実質的 
に分岐命令の実行時間を短縮できる.これは一種の 
(静的な）分岐予測とみなすこともできる. 

Likely 分岐は R 4000 以降の MIPS アーキテクチャで 
採用されているが，スーパースカラ構造では実装が難 
しいせいか，将来的には削除したい意向だという.そ 
の前兆か， MIPS -3 D という拡張アーキテクチャで採 
用された bclany 2， be 1 any 4という条件分岐命令で 
は Likely 分岐が定義されていない（命令コードとして 
は割り当て可能). 

9 Topaz (24 K ) のパイプライン 

それまで MIPS 社は IP コアビジネスに注力してき 
たが，2003年6月にその方向転換を行った.従来，32 
ビットアーキテクチャの MIPS 32 と64ビットアーキ 
テクチャの MIPS 64 の2系統のアーキテクチャを管理 
してきたが，64ビットアーキテクチャの需要がない 
のか，32ビットに特化するようになった.それまで， 
MIPS 64 系の IP コアとしては， 5 K ( Opal ), 20 K ( Ruby ), 
25 K ( Amethyst ) が存在したが，最新のロー ドマップ 
には 5 K のみが掲載されている.従来， 20 K や 25 K が 
あった位置には，新たに 24 K ( Topaz ) が掲載されてい 
る. 24 K という名称からも，性能的に 25 K を置き換え 
るという意味合いが感じられる. 

24 K は，6月17日に発表した MIPS 32 アーキテクチ 
ャの論理合成可能な IP コアである. 8ステージのシン 
グルパイプラインで動作周波数目標は400〜 500 MHz 
である.最初からマルチプロセッサに対応し（キャッ 
シユは MESI アルゴリズム），マルチコアで性能向上 
を目指す. 2004年からライセンスを開始する. 

MIPS 社から発表された 24 K のパイプラインを図 20 
に示す.パイプライン自体には不明な点が多いが，と 
りあえず発表された情報を説明する. 

1) IF 

命令キャッシュ第1段階. 

2) IS 

命令キャッシュ第2段階.最大 64 K バイトの4ゥェ 
イキャッシュに対応 （16 K バイト/1ゥヱイ）し，命令 
キャッシュは2サイクルのレイテンシ （ RAM アクセス 
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図20 Topaz (24 K ) のパイプライン 


に1サイクル，タグチェックとウェイ選択に1サイク 
ル）でアクセスする.命令キャッシュからは2命令を 
同時にフェッチ可能で，結果は6エントリの命令キュ 
一に格納される.これにより，命令フェッチと実行が 
デカップル構成になり，高い命令発行レートを維持で 
きる.最大2命令までのノンブロックリードが可能で 
あり，命令キャッシュへのリフィル時間を最適化でき 
る.動的な分岐予測 （512 エントリの分岐履歴テープ 
ル），4エントリのリターンスタックを備える.分岐 
予測ミス時のペナルティは4クロックである. 

3) RF 

レジスタファイルへのアクセス. 

4) AG 

アドレス生成および命令発行を行う.整数演算とメ 
モリパイプラインを分離することで，データキャッシ 
ュは4エントリのノンブロックリードに対応する.な 
ぜ整数パイプラインにアドレス生成が必要なのかは， 
不明（分岐アドレスの生成用か）である注 1 . 

5) EX 
命令実行. 

6) MS 

乗算命令とシフト命令処理用の追加ステージ • 32 
ビット x 32ビットの乗算が，1クロックのリピート 
レート，5クロックのレイテンシで実行できる. 

7) ER 

結果の整列（ローテート）と符号/ゼロ拡張を行うス 

アーン. 


8) DCache 

データキャッシュへのアクセス.クリティカルワー 
ドをフォワーディング可能（キャッシュバイパス）. 

9) Sel 

データキャッシュのタグチェックとウェイ選択. 

10) WB 

結果をレジスタへライトバック. 

24 K のパイプラインの特徴としては，将来の高速動 
作を見越して，命令フェッチとデコードをデカップル 
構成にしたことであろう.シングルパイプラインでは 
珍しい. 

まとめ 

シングルパイプラインの概要について説明してき 
た.思えばへネパタは偉大だった.いうまでもないこ 
とだが Hennessy は MIPS RISC の生みの親 ， Patterson 
はバークレー RISC の生みの親である.この2人によ 
って著わされたへネパタ本は，日本の RISC メーカー 
の技術者に多大な影響を与えた.ルネサステクノロジ 
の SH シリーズや NEC の V 800 シリーズはへネパタ本 
で示されたアーキテクチャ（とくにパイプライン）を参 
考にしているといわれている.それだけ DLX ( R 300 0) 
のパイプラインが洗練されているということなのであ 
ろう.パイプラインの実例も，はからずも MIPS アー 
キテクチャの例が多くなってしまった.なおへネパタ 
本は，日本語訳も出ているので，未読の方は一度は目 
を通すことをおすすめする. 


注1: MIPS 社の説明によれば，スキュード ALU (Skewed ALU : ロー ドデータを演算器に入力するタイミングを意図的に遅らせて， 
ロード時のインターロックを削減する手法）のために必要というが，具体的な動作は，やはり不明. 
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ここではシングルパイプラインを多重化したスーパースカラについて解説する.1命令1クロック処理が当たり 
前になってくると，プロセッサの性能はクロック数（と命令の機能）だけで決まってしまい，アーキテクチャ的に 
は進化の余地はないように思える_そこで登場するのが1クロックで複数の命令を同時に実行してしまおうとい 
うアプローチだ.その代表がスーパースカラという手法であり，現在の高性能 MPU の多くで採用されている.前 
半ではスーパースカラの基本的な考え方を解説し，後半では実際のプロセッサの実装方式を解説する. 



7 CPI から IPC へ 

CPI (Clock cycles Per Instruction ) とは, 1 命令を 
実行するのに必要なクロック数である.この値が小さ 
いほど MPU は高性能であるといえる. CISC から 
RISC への進化によって， QPI が1という限界に達して 
しまった（理想的な実行環境に限定されるが).それ以 
上性能を上げるには，同じパイブラインステージ内で 
複数の命令を実行させればよいと考えるのが g 然な 
発想である.これがスーパースカラである.そうな 
ってくると，性能指標として CPI の逆数である IPC 
(Instructions Per Clock cycle ) を使用したほうがわか 
りやすい.つまり，1クロックに実行できる命令数で 
ある. 2命令を並列に実行できれば IPC は2に近づく 
し，4命令を並列に実行できれば IPC は4に近づく（理 
論的には）. 

IPC は値が大きいほど高性能である. IPC は MIPS 
(Million Instructions Per Second ) 値とも密接な関係 
がある. MIPS 値とは，1秒間に実行できる命令数 
(100万命令単位）である.その意味でいうと， IPC に 
動作周波数 (MHz 単位）を掛け算した値が MIPS 値で 
ある.つまり， IPC が1の場合， 100 MHz 動作では 


100 MIPS , 200 MHz 動作なら 200 MIPS である. 

もっとも，最近の MPU の MIPS 値は Dhrystone 
MIPS を採用しているので，公称性能は本来の意味の 
MIPS 値とは異なる. Dhrystone MIPS とは，有名な 
ミニコン（死語）である VAX -11/780 の性能を 1 MIPS 
とし， Dhrystone ベンチマークを実行したときの性能 
がその何倍の値になるかを示したものである.この 
Dhrystone MIPS を用いれば，シングルパイプライン 
でも IPC が1を超えているように見えるので多用され 
ている. 

しかし，スーパースカラ構造になると事情が異なる 
場合もある. Dhrystone MIPS を用いると性能がそれ 
ほど高く見えないからだ.その代わり， IPC と同時実 
行できる命令の数が等しいと仮定して，たとえば，2 
命令同時実行可能なパイプラインを 200 MHz で動作さ 
せると 400 MIPS (200 MHz x 2命令という計算）などと 
いう理想値を示す場合もある.現実には，同時実行で 
きる命令数を増やしていっても， IPC は 1.6 あたりに 
収束することが経験的にわかっているので，2命令同 
時実行でも IPC が2になることはまずない. 

ただし， Dhrystone MIPS を真の MIPS 値と（意図的 
に）混同して IPC を計算すれば，2命令同時実行で 2.2 
程度になることもある.混同した場合でも，4命令同 


54 












時実行では 4.0 どころか 3.0 を超えることはまずない. 
その場合は，動作周波数 x 4で MIPS 値が決められた 
りするのである.つまり， 200 MHz で動作し，4命令 
同時実行なら 800 MIPS といった具合である.まあ， 
公称 MIPS 値をそのまま信じる人はいないと思うが， 
このような数字のマジックに惑わされないようにしな 
ければならない. 

しかし，感覚的には IPC が 2.2 などと言われると非 
常に高性能だと思ってしまう.現在の GHz 単位で動 
作する x 86 系の MPU の IPC は2〜3などといわれてい 
るが ， Dhrystone MIPS による IPC では 0.6 程度であ 
る（つまり実質的な性能は，動作周波数の割には高く 
ない). 

一般にパイプラインのステージ数を増やすと ， IPC 
は低下する.動作周波数を向上させるためにパイプラ 
インのステージ数を増やすことはよくある手法だが， 
パイプラインのステージ数を増やしても IPC を 0.6 程 
度に保ち続けている Intel や AMD は賞賛に値する. 
NetNews(f j . comp . arch ) に ， Pentium DI -750 MHz 
で Dhrystone ベンチマークを行った場合の性能の実測 
値が報告されていた（メッセージ ID は失念した）.そ 
の値から計算すると，真の IPC は1.01 ， Dhrystone 
MIPS による IPC が 1.18 であった.予想の2倍の性能 
になっているが，これは Dhrystone という，最高性能 
を発揮しやすいプログラムの性質によるものだろう. 
実際のアプリケーシヨンではこうはいくまい. 

ちなみに，別の資料による Pentium ( P 5) 66 MHz の 
Dhrystone による IPC は 1.5 なので ， Pentium ID にな 
ると IPC は低下している.パイプラインのステージ数 
が増加しているので，当然といえば当然か. 

とにかく， シングル パイプラインの目標が CH を1 
に近づけることであったように， スーパー スカラの目 
標は IPC を同時実行できる命令数に近づけることであ 
る.まあ， x 86 は独自の道を歩んでいるようにも思え 
るが • 

〇複数の命令を並列実行する 

' スーパースカラの概念 

複数の命令を並列実行する機構をスーパースカラ 
( superscalar ) と呼ぶ. スーパースカラ では並列 に 実 
行できる命令数をウェイと呼ぶ.イシュー （ issue : 発 
行）と呼ぶ場合もある.厳密には命令デコーダから複 
数存在する命令実行パイプラインに同時に送り込む 
(発行）ことのできる命令数がイシューであり，命令実 
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図1スーパースカラ （2 ウェイ） の概念図 

行パイプラインの本数がウェイである.しかし，現在 
ではそれほど厳密には区別されていない.どちらかと 
いえば，ウェイという表現のほうがよく使われている. 

一般に，2ウェイスーパースカラといえば2命令を 
並列実行できるパイプライン構造のことである.しか 
し，アウトオブオーダ実行が当然のようになっている 
現在の技術では，複数存在する演算器に対して2命令 
を同時発行できるパイプライン構造 (2 イシュー）のイ 
メー ジのほうが強い. 

いずれにしろ，スーパースカラの概念は図1のよう 
なパイプラインの図で表されることが多い.つまり， 
命令フヱッチ，命令デコード，実行，メモリアクセス， 
ライトバックを2命令並行に処理する，というイメー 
ジである.実際の動作とはあまり一致していないが， 
直感的ではある. 

連続する命令は互いに独立しているのではなく，相 
互に関係している場合がある.このため，単純に命 
令の並列実行はできない.因果律が逆転するからだ. 
スーパースカラの 最大の特徴は， MPU が複数の命令 
を並列に実行するからといって，プログラムで特別な 
考慮をする必要がないことである.従来からの命令セ 
ットを変更する必要もない. MPU 自身が命令間の依 
存性を検出し，並列に実行可能な命令を自動的に判定 
し，演算器に対して発行する.そして各演算器は命令 
を並列に実行する. 

もっとも，命令間に依存関係があると，処理にオー 
バへッドが生じ，実行効率が低下するので，スーパー 
スカラの真の性能を発揮するには，ブログラム側での 
考慮（コンパイラによる命令の並び替え）が必要であ 
る.このため，新しい MPU が発表になると，従来の 
オブジェクトコードそのものではそこそこしか速くな 
らないが，新しい MPU 用に開発されたコンパイラで 
再コンパイルすると性能が劇的に向上する，というこ 
とがよくいわれる. 
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3 スーパースカラの実現 

一般に，命令はデコーダでの発行，演算器での実行， 
実行の完了の過程を経て処理される.命令の発行はプ 
ログラムに書かれた順序で行うこともできるし，矛盾 
を生じない限りは，プログラムの順序を無視して行う 
こともできる.また，命令の実行は基本的に1サイク 
ルなので，通常は発行された順序で完了する.ただし， 
実行クロック数の異なる命令を同時に発行すると，完 
了する順序が入れ替わることもある.当然，ブログラ 
ムの順序で完了するとは限らない.処理がプログラム 
の順序どおりであることをインオーダ，プログラムの 
順序と異なることをアウトオブオーダと呼ぶ. 

スーパースカラの方式は，プログラムの発行，完了 
が，それぞれ，イン オーダ かアウトオブ オーダで ある 
かによって4種類に分類できる.以下は簡単のために， 
2ウェイのスーパースカラを想定して説明する. 
♦命令デコード 

命令デコードは，インオーダ/アウトオブオーダで 
それほど大きな違いはない.命令キャッシュから2命 
令（たいていの場合はウェイの数と同じ数）をデコード 
し，命令キューに入れて終了である.デコーダと演算 
器の中間に命令キューをもつ方式では，デコードと発 
行を独立に行えるので，（命令キューに空きがある限 
り）1サイクルごとに2命令をデコードできるので効率 
がよい.また，逆に考えると，命令キャッシュの参照 
が少々もたついても，その時間的なロスを命令キュー 
で吸収して見えなくすることが可能である.事実， 
MIPS の Ruby (20 Kc ) は Way 予測を行って命令キヤッ 


シュを参照しているが，予測失敗時のペナルティは命 
令キューで吸収できると説明している. 

命令キューの役割は，デコードと命令実行開始まで 
の待ち時間を最小にすることもあるが，とくにスー 
パースカラにおいては命令間のオペランドの依存関係 
を調べることである.たとえば，片方の(先行する）命 
令の実行結果を，もう片方の（後続する）命令がソース 
オペランドとして使用する場合に依存関係があるとい 
う.簡単にいうと，レジスタ間のハザードである•も 
し，2命令間に依存関係がなければ，同時に実行可能 
なので，演算器に2命令（ウェイの数）を発行する•命 
令の追い越しを許さない場合(つまりインオーダ）は， 
デコードしている2命令間でのみ依存性を調べればよ 
いので，いちいち命令をキューに入れなくてもデコー 
ダのみの検査でこと足りる.このため，インオーダの 
スーパースカラ構造では，命令キューをもたないもの 
も多い.ただし，依存関係がある場合はデコーダで 
(依存関係が解消するのを）待ち合わせることになるの 
で，各サイクルで，常に2命令をデコードすることは 
できない.このため，少し効率が悪い. 

なお，このような役割をする命令キューは特別にリ 
ザべーションステーション （Reservation Station ) , また 
は集中命令ウインドウ (Central Instruction Window ) 
などと呼ばれる. 

また，命令の依存関係は命令キューで解消されてい 
るので，いったん演算器で実行が開始されるとレジス 
夕間のハザードによるストールは発生しない.命令ご 
とに定められた実行クロック数（レイテンシ）を経て実 
行が完了する.ただし，データキャッシュアクセスに 
よるストールは発生する可能性がある.多くの場合， 


スーパースカラという名前の由来 


ここでスーパースカラの名前の由来に触れておこう. 
スカラから連想されるのは，ベクトル量に対するスカラ 
量である.つまり，科学計算でおなじみのベクトルや行 
列演算に特化した並列処理ではなく，スカラ量に対する 
並列処理という意味でスーパースカラと呼ぶという説が 
有力である.この意味で，通常のシングルパイプライン 
をスカラパイプラインと呼ぶこともある. 

また，スーパースケーラという呼び方もある.これは， 
1クロックで1命令を実行するという直感的な基準（ス 
ケーラ）を超えるという意味からきているらしい.この 
説はあまり聞いたことはないが，技術解説で有名な某誌 


ではそう説明されている. 

とどのつまり，スーパースカラの語源ははっきりしな 
い.ただ，最近の論文ではスーパースカラの反意語とし 
てユニスカラ ( uniscalar ) が使用されるが，これなどは 
「スカラ=パイプラインの本数」という概念からであろう. 

スカラかスケーラかというのは，個人的には単なる発 
音の問題だと思う.英語による発音はスーパースケーラ 
に近い（少なくともあの Hennessy 教授はそう発音して 
いた）のだが，最近ではスーパースカラと表記されるほ 
うが多いように思う.実際にスーパースカラと発音する 
外国人も多くなった. 
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図2インオーダ発行 （2 ウェイ） 



データキャッシュにアクセスするためのロー ド/スト 
アユニットは実行ユニットと分離されているので，ア 
ウトオブオーダの場合は他の命令実行に影響を与えな 
い.インオーダの場合は後続命令が先行するロード/ 
ストア命令を追い越せないので，データキャッシュに 
アクセス中はパイプラインがストールしてしまう. 

ところで，本来 RISC は複雑な処理を行う命令を扱 
わないはずだったが，他社との差別化を進めるうちに 
複雑な命令も扱うようになってきた.これは ， RISC 
の CISC 化に通じる.複雑な命令に関しては， x 86 プ 
ロセッサではマイクロコードで処理するが，たいてい 
の RISC はハードワイヤードロジック（結線論理）で処 
理する.しかし，これはハードウェアの複雑化を招く. 
そこで考案されたのが，複雑な命令は複数の単純な命 
令の組に分割して実行する方法である.これは， x 86 
プロセッサが x 86 命令を" OP に変換して実行するの 
と同じ考え方である.たとえば，2001年に発表され 
た IBM の Power 4 は，複雑な命令を2命令 ( Cracking ) 
または3命令以上 ( Millicode ) に分割して命令キューに 
格納する.そして，分割された命令間で使用できる一 
時レジスタを4本，プロセッサアーキテクチャのレジ 
スタとは別に備えている.今後このような傾向は増え 
ていくかもしれない. 

#イン オーダ 発行 

この場合は，命令キューの先頭の（または現在デ 
コードしている）2命令（ウェイの数）のみの依存性を 
調べる.命令間に依存性がない限り，2命令（ウェイ 
の数）を同時に発行する.依存性がある場合は1命令 
のみを発行する.残った命令はその次の命令と組にな 
り，再び依存関係が調べられる（図 2). 


• アウトオブオーダ発行 

この場合は命令キュー全体（あるいは一定の命令数 
の間）で依存性が調べられる.オペランドの依存性が 
ない（というか，オペランドをすぐに利用できる）命令 
のうち，先頭から2命令（ウェイの数）を同時に発行す 
る.発行される順序はプログラムの順序と入れ替わる 
場合がある.命令キュー内のすべての命令に何らかの 
依存関係がある場合は，先頭の1命令のみが発行され 
る(図 3). 

オペランドを利用可能かどうかは，リザべーション 
ステーション内の各命令のソースオペランドとデステ 
ィネーションオペランドのレジスタ番号を比較するこ 
とで検出できる.オペランド間に依存性がある場合で 
も，デスティネーションオペランドが確定していれば 
(そのデスティネーションオペランドを有する命令の 
実行が終了していれば），ソースオペランドは利用可 
能と判断される（図 4). 

• アウトオブオーダ完了 

基本的には RISC は命令を1クロックで処理できる 
が，現実には実行に数クロックかかる命令も存在する. 
とくに浮動小数点命令は実行に最低でも3クロック程 
度かかるのが実情である.つまり， MPU 内には複数 
の演算器が存在するが，それらが処理する命令のレイ 
テンシは一般には異なる.ということは，命令がイン 
オーダに発行されようがアウトオブオーダに発行され 
ようが，実行がプログラムの順序で完了する保証はど 
こにもない.すなわち，スーパースカラではアウトオ 
ブオーダ完了が自然な姿なのである（図 5). また，実 
行が終わった演算器には命令キューから次々と命令を 
発行すればいいので効率的である. 

しかし，実行の完了と同時に結果をレジスタフアイ 
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デコーダ 


命令キュー（依存性チェック） 


図4オペランドの依存性チェック 叩令キュー 


I 1 I- 2 | 


図5アウトオブオーダ完了 （2 ウヱイ） 


¢2命令/サイクル) 


図3アウトオブオーダ発行 (2 ウェイ） 
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寝算器2 


EX 

EX 

EX 

EX 

EX 

WB 







EX 

EX 

W 巳 





演算器1で実行している命令が，演算器2で実行している命令より，プ 
□グラム順序で先にあるとき，演算器2の命令で例外が発生すると不都 
合が生じる 


RF 

EX 

DC 

WB 


RF 

EX 

DC 

WB 


1命令/サイクル(オペランドビジー） 

2命令/サイクル(オペランド レディー)」 


デステイネーシヨン 
レジスタ番号 丨 


一致—依存性あり 
不一致—依存性なし 


ソースレジスタ番号 


3 4 5 6 7 


D s s D s s [ s s D s S 

命令 命令 命令 命令 
プ□グラムの順序 A - 
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第 3 章並列処理の基本とスーバースカラ 


ルに書き戻していたら不都合が生じる場合がある. 

まず，第1は出力依存関係である.同時に実行され 
ている命令の デスティネーシヨン レジスタ（結果の格 
納先）が等しい場合，そこにはプログラム的に後にあ 
る命令の実行結果が書き込まれなければならない.と 
ころが，後続命令の処理が先に完了し，先行命令の処 
理が後から完了する場合，正しい結果（後続命令の結 
果）が破壊されてしまう.これが WAW(Write After 
Write ) ハ ザ ー ドである. シングル パイプライ ン では 
WAW ハ ザ ー ドは起こり得ないが， スーパー スカラで 
は当たり前に発生する.もっとも，これはあとで説明 
するレジスタリ ネーミングで 回避することができる. 

しかし，インオーダ発行のスーパースカラでは（回 
路規模が増大するのを嫌って）レジスタリネーミング 
を行わないことも多く，この場合はデコード時に発行 
を待ち合わせたり，後続命令のライトをストールさせ 
るなど，何らかの対策が必要である. 

第2は（こちらのほうがもっと深刻だが)，例外の正 
確性 ( precise ) の問題である.例外はプログラムの順 
序で処理されなければならない.たとえば，先行する 
命令も後続する命令も例外を発生する場合，後続命令 
の例外が先に検出されても，先行命令の例外発生を優 
先させるようにしなければプログラム処理に矛盾が生 
じる. 

しかし，例外をプログラムの順序で発生させるとい 
う制約はシングルパイプラインでも同様であり，通常 
何らかの対策が施されている.問題は例外(割り込み 
でも同様)発生後に，例外の発生直後の命令からプロ 
グラムの処理を再開させる場合（ブレークポイント命 
令，システムコール命令，トラップ命令，割り込みな 
どの処理）に生じる.つまり，レジスタへのライトが 
プログラムの順番を無視して行われていたら，例外か 
らの再開をどの命令から開始してよいのかが判断でき 
ない. 

たとえば， opl ， op 2 を適当な演算として， 

R 1 一 R 2 oplR 3 ……命令1 
R 3 — R 4 op 2 R 5 ……命令2 
例外/割り込み……命令3 
という命令処理を考え， op 2 の実行が opl よりも早く 
終了すると仮定する.この2命令の処理中に後続命令 
で検知される例外や割り込みが発生すると， R 1 は更 
新されていないのに R 3 が更新されている状況が発生 
する.この場合，プログラムの実行再開は，まだ実行 
されていない命令1から行うことになる.しかし，命 


令1のソースオペランドである R 3 は命令2で更新され 
る前の値が必要なので矛盾が生じる.例外の正確性を 
維持するのは，シングルパイプラインではそれほど複 
雑な制御でないが，（アウトオブオーダ完了の） スーパ 
ースカラではかなり複雑である. 

例外が発生すると，それを致命的とみなし，プログ 
ラムの実行を中断する（再開しない），割り込みの受け 
付けは再開に都合のいい時点の処理が終了するまで待 
ち合わせる，という制御を行えば，アウトオブオーダ 
完了を実現できる.ただし， システムコールが 行えな 
いとか，割り込み応答性が悪くなるという問題が生じ， 
あまり現実的ではない. 

• イン オーダ 完了 

インオーダ完了とは，各演算器の完了がアウトオブ 
オーダに完了するのは避けられないので，その結果を， 
いったん別の場所に保存しておき，レジスタにライト 
する順番をプログラムの順番に一致させる方式であ 
る.レジスタへのライトが終了するときに初めて命令 
は真の完了となる.この場合，演算器での実行完了 
と，命令の真の完了を区別する必要がある.一般には， 
前者をコンプリート （ complete ) ，後者をリタイアメ 
ント （ retirement ) と呼ぶ.リタイアメントはコミット 
( commit ) と呼ばれることもある.なお，本書ではリ 
タイアメントという表現は文字数が多いので，その動 
詞形のリタイアという表現を使用する. 

インオーダ完了を実現するために，リオーダバッフ 
ァ (Reorder Buffer :並び替えバッファ. ROB と省略） 
という機構が導入されている•リオーダバッファとは， 
プログラム の実行順序を記憶しておく テーブル であ 
り，命令の発行時に適当な情報が設定される.その各 
エントリは，命令がコンプリートしたか否かの情報， 
命令の実行結果を一時退避するバッファ（このバッフ 
ァは ROB にない場合もある）などからなる. ROB は 
リザべーシヨン ステ ーシヨ ンで 共用することも可能で 
ある. 

ROB 内にある命令の先頭から，連続してコンプリー 
卜されている命令がリタイアできる（図 6). 1サイク 
ルにリタイアできる最大命令数は MPU ごとに異なる 
が，多くの場合，スーパースカラのウェイ数に等しい. 
たとえば，命令1，命令2,命令3，命令4がプログラ 
ムの順序であり，これらの命令はすべてアウトオブ 
オーダ（である必要もないが）に発行されているものと 
する.このとき， ROB の内容（先頭4エントリ）が， 

命令1未コンプリート 
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図 6 インオーダ完了 （2 ウェイ） 


R 〇巳(時严日11 ) R0 巳(時間 3) ROB (時 P 連 6) 



命令2コンプリート 
命令3コンプリート 
命令4… 

となっている場合，このサイクルでは1命令もリタイ 
アできない.命令1が命令2以降のリタイアを阻害す 
るからである.一方， 

命令1コンプリート 
命令2未コンプリート 
命令3コンプリート 
命令4… 

となっている場合は，このサイクルでは命令1のみが 
リタイアできる.命令3のリタイアは命令2がコンブ 
リートしていないので阻害されている.また， 

命令1コンプリート 
命令2コンプリート 
命令3コンプリート 
命令4未コンプリート 

となっている場合は，命令1，命令2，命令3がリタイ 
ア対象である.ただし，実際にリタイアできる命令の 
最大数は MPU ごとに異なる.もし， MPU が1サイク 
ルで2命令がリタイア可能なら，命令1，命令2のみ 
がリタイアし，命令3は次のサイクルでのリタイアに 
回される.もし1度に4命令がリタイア可能なら，命 
令1，命令2，命令3のすべてがリタイアできる. 

例外の正確性の問題があるので,特殊な場合を除き， 
アウトオブオーダ完了というしくみは採用されない. 
したがって， スーパー スカラの種類は，実質的には， 
インオーダ（インオーダ発行，インオーダ完了）とアウ 
トオブオーダ（アウトオブオーダ発行，インオーダ完 
了）の2種類しかない.図7に典型的な スーパース カ 
ラ構成の MPU のブロック図を示す.図 7( a ) ではリザ 
ベー ションステーションは 一つのみであるが，図 7( b ) 
のように（いくつかの）演算器ごとにリザべ ーションス 
テー シヨ ンを設ける構成もある. 


また，インオーダなスーパースカラは2ウェイのも 
のが主流である.インオーダで3〜4ウェイというの 
は筆者の記憶にない.これは，多ウェイのスーパース 
カラ構造を採用する場合でも，整数 ALU は2個程度 
しか用意されていないためではないだろうか.イン 
オーダのスーパースカラではウェイの数だけ ALU が 
ないとパイプライン効率が悪い.それなら，いっそア 
ウトオブオーダにしたほうが同時発行の効率が上 
がる. 

• 制限付きアウトオブオーダ 

複数の演算器それぞれにリザべーシヨンステーシヨ 
ン（命令キュー）を有するスーパースカラ〔図 7( b ) のよ 
うな構成〕において，各命令キューへの命令格納は独 
立に行われるのが普通である.しかし，すべての命令 
キューに空きができるまで命令の格納を待ち合わせて 
から，一括して命令供給を行う方式もある.命令のリ 
タイアもすベての演算器での実行が終了してから一括 
して行う.この方式は，演算器の数が少ない場合はイ 
ンオーダ方式と大差はないので，効率的でないが，命 
令キューの待ち合わせ論理を簡略化できるという利点 
がある. 

IBM の Power 4 では，ハードウェアを簡略化して動 
作周波数を向上させるため，4命令 （+1 分岐命令）を 

•括してそのグループ単位で実行する方式を採用して 
いる.1グループ内の4命令はアウトオブオーダに実 
行できる. 

ス《ースカラの命令発行を 
4効率的に行うための 
r レジスタリネー5ング j 

レジスタリネーミング (Register Renaming ) とは， 
その名称のとおりレジスタ名の付け替えである.その 
役割には二つある.基本的には， スーパー スカラの命 
令発行を効率的に行うための技術である. 
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第 3 章並列処理の基本とスーパースカラ 



( a ) 単一のリザべーシヨンステーシヨンを有する場合 



図7典型的なスーバースカラ構成 （ b ) 複数のリザべーシヨンステーシヨンを有する場合 


第1は，アーキテクチャ的に定義されたレジスタ数 
を増やすことである.たとえば， x 86 の系 MPU の汎 
用レジスタは8本しかないので，ちょっとしたプログ 
ラムでもレジスタの使い回しが多くなり，レジスタの 
依存関係が発生しやすい.これは命令発行の制約とな 
る.レジスタの本数をアーキテクチャが規定するより 
大きくもち，レジスタの名前を付け替えることで，内 
部的にプログラムの依存関係を低減できる. 

第2には，これも同じく依存関係の解消であるが， 
WAR (Write After Read ) ハザード ， WAW (Write 
After Write ) ハザードという偽の依存関係を解消する 
ことである.偽の依存関係とは，本来はハザードにな 
るが，レジスタリネーミングによつて依存性を解消で 


き，結果として命令発行の妨げとならないように変更 
可能な依存関係である.なお， WAR とは先行する命 
令のソースオペランドを後続の命令で変更する可能性 
のある依存関係， WAW とは後続命令が変更したデス 
テイネーシヨンレジスタを先行する命令が変更する可 
能性のある依存関係である.これらは同一のレジスタ 
が同時に変更される場合に生じるので，その同一のレ 
ジスタを別々のレジスタに割り当ててやれば(偽の）依 
存関係がなくなる. 

また，真の依存関係とは RAW (Read After Write ) 
ハザードのことであり，後続命令が先行する命令の実 
行結果をソースオペランドとして利用する場合であ 
る.これはレジスタリネーミングによっても解消でき 
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ない.たとえば，次のような命令列を考える. op は 
単純な加算 （+) よりもレイテンシ（実行時間）の大きい 

演算とする. 


R 3 一 R 3 op R 5 • 

• 命令1 

R 4 一 R 3 + 1 • 

• 命令2 

R 3 — R 5 + 1 • 

• 命令3 

R 7 — R 3 op R 4 • 

• 命令4 


この 4 命令は （4 ウェイスーパースカラで）同時発行し 
ようとしても，命令2と命令3が WAR ハザードに， 
命令1と命令3が WAW ハザードになっているため， 
同時発行できない.そこで，次のようにデスティネー 
シヨンレジスタに対してレジスタリネーミングを行 


う.基本的には，デスティネーションレジスタを別個 
のレジスタに割り当てればよい.ソースオペランドは， 
デスティネーションレジスタの割り当てにしたがって 

適宜変更される. 


P 1 一 R 3 op R 5 •- 

…•命令1 

P 2 一 P 1 + 1 •. 

…•命令2 

P 3 一 R 5 + 1 .. 

…•命令3 

P 4 — P 3 opP 2 •• 

…•命令4 

このとき， WAR ハザー 

ドと WAW ハザードは解消さ 


れる.しかし，命令1と命令2，命令3と命令4，命令 
2と命令4は依然として RAW ハザードの関係にある. 
この場合，依存性のない命令1と命令3がまずアウト 
オブオーダ発行できる.命令2は命令1がコンプリー 
卜するときに，命令4は命令2と命令3がコンプリー 
卜するときに， ソース オペランドが確定するので，晴 
れて発行できるようになる. 

5分岐予測と投機実行 

• 分岐予測 

典型的なプログラムでは全体のコードの10%が無 
条件分岐命令，10〜20%が条件分岐命令であるとい 
われている.無条件分岐は，フェッチするアドレスを 
分岐先に切り替えるだけなので，それほど問題はない. 
一方，条件分岐は命令がパイプラインの実行ステージ 
でコンプリートするまで，分岐するか否かが不明なの 
でやっかいである.分岐命令のコンプリートを待って 
いたのでは，その間に多くの命令をフェッチし，発行 
する機会を失うことになる. 

そこで考案されたのが，分岐するか否かを推測する 
アルゴリズム である.もし，推測が成功すれば，命令 
はほんの少しの遅延（あるいは遅延なし）で続行できる. 


推測が失敗すれば部分的にコンプリートしている命令 
を無効化し，正しいアドレスからフェッチ，デコード， 
発行を再開しなければならない.これは，最近の x 86 
系 MPU のようにパイプラインのステージ数が多い 
MPU ではとくに，かなりの性能低下をまねく.しか 
し，そのようなペナルティを考慮しても， 分岐 予測は 
必須であり，これを行わないと性能は悲惨なことに 
なる. 

分岐予測には二つの基本的な手法がある.静的な分 
岐予測と動的な分岐予測である.静的な分岐予測は，コ 
ンパイラが分岐命令の命令コードに埋め込んだ「ヒン 
卜」情報で分岐が発生するか否かを予測する.ただし， 
このような分岐命令を命令セットとして有する MPU 
は少ない.あるいは後方 ( backward ) への分岐（オフセ 
ットが負）はループの終端とみなせるので，これを分 
岐すると予測するのも静的な分岐予測といえよう. 

静的な分岐予測と動的な分岐予測を比較すると，一 
般には，動的な分岐予測のほうが効果的といわれてい 
る.動的な分岐予測とは，分岐命令の時間的な挙動を 
評価するものである.一度分岐した分岐命令は次も分 
岐する傾向があると予測する.これに使われるのは， 
分岐履歴テーブル （Branch History Table : BHT ) と 
分岐ターゲットバッファ (Branch Target Buffer : 
BTB ) である. BHT も BTB も分岐命令のアドレスを 
インデックスとするキャッシュである.（キャッシュ 
にヒットする場合) BHT の出力は分岐命令が分岐する 
か否かの予測情報であり， BTB の出力は予測した分 
岐先のアドレスである. 

• 投機実行 —— 分岐予測の効果を増大させる 

また，分岐予測の効果を増大させるために 投機実行 
(Speculative Execution ) を行う MPU もある.投機実 
行とは，分岐予測の成功/失敗がわかる以前でも命令 
を実行してしまう機能である.しかし， MPU は投機 
的に実行されている分岐命令の分岐/不分岐が確定す 
るまで(つまり分岐命令のコンブリートまで）リタイア 
できない.もし分岐予測が失敗すれば，分岐命令以降 
に実行された命令を放棄して，分岐元から命令の処理 
をやり直さなければならないからである.通常，投機 
実行中の命令の結果は，リオーダバッファに格納され 
る.分岐予測が失敗したらリオーダバッファの該当エ 
ントリを無効化すればよい. 

ところで，投機実行に限らず，一般的には演算結果 
はリオーダバッファに格納されてリタイアを待つが， 
MIPS の R 10000 などは（レジスタにネーム後の）物理 
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レジスタを直接更新する.これは，アーキテクチャ上 
の論理レジスタにも実体があり，物理レジスタは値を 
一時的な演算結果を保持するものとして区別している 
ためである.この場合，リオーダバッファの中には演 
算結果の格納領域は不要である. R 10000 では命令の 
リタイア時に，その命令に割り付けられている物理レ 
ジスタの値が論理レジスタに転送される. 

歴史的には R 10000 方式のほうが古く，かつ一般的 
のように思える. x86 系の MPU のように物理レジス 
夕を実質的なレジスタの本数を増加させる目的でレジ 
スタリネームを使用すると，それを一時的な結果の保 
存場所に利用することはできない.リオーダバッファ 
内に一時的な結果をもつのは姑息な方法のようにも思 
える. x86 系 MPU のシェアは膨大なので，そちらの 
方式が“大勢”といわれれば確かにそうではあるが. 

投機実行を行う場合，分岐条件未確定中のロード/ 
ストアがどのように処理されるかは興味深い.たとえ 
ば，ストアを行った後で分岐予測の失敗が判明したと 
き，キ ャッシユや メモリに不正なデータが書かれるこ 
とはないのか不安になる.ロー ド/ストアがキャ ッシ 


第3章並列処理の基本とスーパースカラ 

_ ^ .，.くレ ..,- 


ュ領域に対して行われるものならば， ROB と同等な 
一時バッファを設けて，ロード/ストア命令のリタイ 
アまで保持すればよい. Pentium ではこのバッファを 
MOB (Memory Order Buffer) と呼んでいる. 

ロー ド/ストアが非キャッシュ領域に対して行われ 
るときは事情が異なる.最近の MPU は専用の I/O 命 
令をもっていないため，メモリ空間に I / O アドレスを 
割り付けて，そこを非キャッシュで参照して I / O 機能 
を実現する（メモリマップト I/O). I/O 装置にはリー 
ドを行うと内部状態が変化するものもあり，実際には 
実行されない(分岐予測が失敗する場合の)投機実行中 
のロードを行うと周辺が誤動作してしまう.つまり， 
このような場合，投機実行中の非キャッシュ領域への 
ロード/ストアは実行してはならない.また，同様に， 
非キャッシュ領域へのロー ド/ストアの順序も変更し 
てはいけない. 

最近の MPU は，ノンブロッキングキャッシュ機能 
を実装し，ロー ド/ストアもアウトオブオーダに行わ 
れるが，これはキャッシュ領域に対する場合のみで 
ある. 



図 8に，レジスタ マップ， アウトオブオーダ命令発 
行，リタイアとリザべ ーションステーションの 関係図 
(概念図）を示す.これらが，典型的な MPU において 
どのように実現されているか，その実装方式を見てい 
こぅ. 

各 MPU とも，パイプラインに関しては実行ステー 
ジ以降の処理はやや枯れた感じがあり，新規性はない. 
しかし，命令フヱッチ，分岐予測，命令デコードの部 
分には，各社それぞれにいろいろな工夫が見られる. 
そこを中心に比較するのも興味深い. 

6 SH -4 

• インオーダ/2ウェイスーパースカラ構造 
SH -4 は， 整数 ユニット， 浮動小数点 ユニット，ロー 
ド/ストアユニット，分岐ユニットという，四つの基 
本演算 ユニッ トを備える. この四つのユニッ トに 対し， 
2命令を同時発行するインオ ー ダな2ウェイ スーパー 
スカラ 構造である.なお， ロード/ストアユニットは 


単純な整数ュニットの役割をもち，簡単な MOV や NOP 
などの命令を0レイテンシで実行できる. 

このほかに，複雑な命令を実行するためのユニット 
(というか上述のユニットを組み合わせて利用？）があ 
るようである. ユーザーズ マニュアルに よると， SH- 
4 の命令は利用する内部機能ブロックにより，次の 6 
グループに 分類できる（略語の意味は筆者の推測によ 
るもの）. 

1) MT(Manipulate T ) グループ 

2) EX (Integer Execution ) グループ 

3) BR(Branch ) グループ 

4) LS (Load/Store ) グループ 

5) FE(Floating Point Execution ) グループ 

6) CO (Complex ) グループ 

これらのグループは上述の演算 ユニッ トに対応して 
おり，同時に実行できる組み合わせは 表1 のようにな 
っている. CPU コア内の詳細な内部ブロック図は公 
開されていない. 図 9は筆者の想像図である.なお， 
各パイプラインは通常，次の 5 ステージで処理される. 
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図 8 

スーパースカラ実現の概念図 


U ザべーションステーション 
(命令キュー)とリオーダノ （ ッファ 

各命令の SRC レジスタが 
準備できているかをチェック 
(実行中の命令の DST レジス 
夕と番号が一致していたら終 
了まで待ち合わせ） 

命令順 
に登録 


口卩 T 3 


口卩 T 3 

キャッシュ 


デコー ダ 


レジスタ 

リネーム 

(マップ） 


マップ 

テーブル 



バッファの先頭の 
命令実行が終了 
実行中の'、、 

命令が終了 、、 

(DST レジスタ\ 

の値が確定した A 


リタイア 
(コ S ット） 


SRC レジスタが 
準備できた命令/ 
から発巧〆，〆 

'論理レジスタと 
物理レジスタの 
対応情報 



ノ物理レジスタか 
. ら論理レジスタ 
への書ぎ戻し 


論理 
レジスタ 
フアイ J し 


[ イン オー タ 


工 


( アウトオブ オーダ 


インオーダ J) 


図9 SH -4 の CPU コアの構造 

(筆者想像による） 


ベクタ FPU 
32x32 ビット 





表1 SH -4 の命令の並列実行性 



第 2 命令 

MT 

EX 

BR 

LS 

FE 

C 0 

第 1 

命令 

MT 

〇 

〇 

〇 

〇 

〇 

X 

EX 

〇 

X 

〇 

〇 

〇 

X 

BR 

〇 

〇 

X 

〇 

〇 

X 

LS 

〇 

〇 

〇 

X 

〇 

X 

FE 

〇 

〇 

〇 

〇 

X 

X 

C 0 

X 

X 

X 

X 

X 

X 


1) 命令フエッチ（ I ) 

2) デコード•レジスタリード （ D ) 

3) 実行 ( EX , SX , FO ， Fl ， F 2, F 3) 

4) データアクセス （ MA , NA ) 

5) ライトバック （ S , FS ) 

これ自体は SH -3 のパイプラインと同じである（浮動 
小数点演算が追加されているが).図1〇に基本的なパ 
イプラインの命令処理パターンを示す. 

ユーザーズマニュアルに よると，2命令を同時発行 
できる場合は，0レイテンシと1レイテンシの命令の 
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組み合わせだけのようである.片方が0レイ テン シな 
らば無条件に，1レイ テン シどうしなら，命令のグ 
ループが 異なり， かっ レジスタの依存性がない場合に 
限り同時発行できる. 

2命令間が同時発行できないグループにあるとき， 
実行に必要なハードウヱア資源が競合するとき，レジ 
スタの依存関係があるときは同時発行できない.この 
場合，第2命令は，その後続命令とともに再度組み合 
わされて，同時発行ができるか否かを決定する.この 
関係を図11に示す. 

マニュアルを 読み間違えていなければ， マルチステ 
ップ命令（この種の命令はハードウ ヱア 資源を独り占 
めする）が出現する場合や，レジスタの依存関係があ 
る場合は， SH -4 のパイプライン処理の効率はシング 
ルパイプラインと大差ないように思える.少しの並列 
実行を行うために，ハードウ ェア 資源をむだ使いして 
いるように感じるのは筆者だけであろうか.せめて， 
整数演算器がもう一っあれば，性能はもう少し向上す 
ることだろう. 

• 特徴的な SH -4 のパイプライン動作例 

ここで， SH -4 のパイプラインで特徴的な二つの例 
を示す. 

► 0 サイクルレイテンシ命令はレジスタの依存関係が 
あってもストールしない 

これはソースフォワード機能と呼ばれる（通常のフ 
ォワードとは異なる）.おそらく，デコード時に他方 
の命令の ソース オペランドを読み替えるのであろう. 
たとえば， 

MOV Rl,R0 // R0 <- R1 
ADD R0, R2 // R2 <- R0+R2 
という命令列がある場合， ADD の ソースで ある R 0 は 
R 1 に変換されて，依存性をなくし，この2命令を1サ 
イクルで実行する. 

►条件分岐命令でオフセットが0の場合は分岐成立時 
でも1サイクルで実行できる 

分岐命令が分岐する場合，分岐先のフニッチまでに 
1サイクルストールするので，レイテンシは2である 
が，分岐のオフセットが 0(2 命令後への分岐）の場合 
は，分岐先フェッチのオーバヘッドがなく，1サイク 
ルで実行できる.っまり，スキップ命令として利用で 
きる. 

たとえば，次のような命令列が考えられる.最近の 
MPU でも，2命令後への分岐は特別扱いして高速化 
が試みられているが，これはその先駆けかもしれない 


第3章並列処理の基本とスーパースカラ 



図10 SH -4 のパイプラインの命令処理パターン 


(しかし，そのような場合は条件 MOVE 命令を使用す 
ることのほうが多いような気もするが). 

CMP/GT Rl,R2 "if R2>R1 then 
set T-bit 

BT label // branch relative if 

T-bit set 

ADD #4, R3 //if T-bit set then 
R3<-R3+4 

label : 

SH-4 のパイプラインは 2 命令同時実行に制限が多 
い.このあたりはコンパイラの頑張りしだいといえる 
かもしれない. 

ルネサステクノロジ(当時は日立製作所)の発表では， 
SH-4 の性能は 200MHz 動作で 360MIPS ということに 
なっている.これは Dhrystonel.l による値であり，他 
社が採用している Dhrystone2.1 では 300MIPS 程度と 
いう噂もある（公式発表はない）. 200MHz で 300MIPS 
も達成できれば，インオーダスーパースカラとしては， 
まずまずの性能であろう.しかし， 300MIPS という 
のも少し眉唾な気がしないでもないが（このパイプラ 
イン構造の割に性能が良すぎる）. 

争 SH -5 ではシングルパイプラインへ 

SH-4 の後継機種である SH -5 では，スーパースカラ 
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SHAD RO, R1 

1 

D 

EX 

NA 

S 


ADD R2. R3 

1 


D 

EX 

NA 

S 

NEXT 


1 

D 

EX 

NA 

S 

(a) 直列実行: 

並列実行不可能 


ADD R2. R1 

1 

D 

EX 

NA 

S 


MOV.L __ R5 

1 

D 

EX 

MA 

S 



EX グ J レープの SHAD と同じ EX 
グループの ADD は並列実行でき 
ない. SHAD のみ発行され， 
ADD は次の命令と組み合わされ 
て並列実行可能か否かを調べる 


EX グループの ADD と LS グルー 
プの MOV は並列実行できる 


(b) 並列実行可能：並列実行可能かつ依存性なし 


ADD R2, R1 
MOV.L@Rl,R2 
NEXT 


1 

D 

EX 

NA 

S 


1 


D 

EX 

NA 

S 


1 

D 

EX 

NA 

S 


(c) 並列実行可能：並列実行可能 
かつ依存性あり 


EX グループの ADD と LS グルー 
プの MOV は並列実行可能.しか 
し. ADD の結果をアドレスとす 
るので依存性があり，この場合 
は直列実行になる. MOV は次 
の命令と組み合わされて並列実 
行可能か否かを調べる 


MOV RO. R1 
ADD R2. R1 


(d) ◦サイクルレイテンシ命令 


1 

D 

EX 

NA 

S 

1 

D 

卜 EX 

NA 

S 


依存関係がある場合でも，〇サ 
イクルレイテンシ命令の後続命 
令は並列実行できる. R1 がフォ 
ワーデイングされる 


MOV.L@Rl.R2 
ADD RO, R2 


1 

D 

EX 

MA 

\ 

S 


1 

D 


EX 

NA 

S 


(e) 2サイクルレイテンシ命令 


MOV.L は2サイクルレイテ 
ンシであり.その結果を後 
続命令で参照するには. 
MA ステージまでス I ル 
する 


図11 SH -4 の並列動作の組み合わせ 


M0V.L@R1.R2 
SHAD R2, R3 


1 

D 

EX 

MA 

S 


1 

D 



EX 

NA 

S 


(f) シフト命令のシフト量 


□ー ド命令の結果をシ 
フト量として使用する 
場合は. S ステージ ま 
でストールする.シフ 
卜量にはフオワーデイ 
ングされる経路がない？ 


構造では制御が複雑で動作周波数を上げることができ 
ないという理由で，7 ステージの シングルパイプライ 
ンが採用された.これで，動作周波数は SH -4 の200 
MHz から 400 MHz へと向上するという.しかし，筆 
者には SH -4 のパイプラインが周波数の向上の妨げに 
なるほど複雑だとは思えない（とはいえ規模は大きそ 
うだが）.むしろ， SH -4 ではシングルパイプライン並 
みの効率の スーパー スカラでしかなかったので，効率 
的なシングルパイプラインで作り直したと考えるほう 
が納得できる. 

実際， SH -5 の性能は 400 MHz 動作時に 714 MIPS 
( Dhrystonel . l ) と発表されており， IPC でみると SH -4 
も SH -5 もほとんど同 t 生能と思われる.これが本当な 
ら， SH -5 はとても素晴らしい CPU といえる.個人的 
には シングルパイプラインで MIPS / MHz の値が1.785 


というのは不可能だと思うのだが（どう考えても，イ 
ン オーダ スーパースカラの 値）.その後， SH -5 の 性能 
は Dhrystone 2.1 では 604 MIPS と発表された. MIPS / 
MHz は 1.51 である.これでも性能が良すぎる気がす 
る.こちらも SH 4 の性能比(噂であるが）と同じである. 

なお， SuperH 社は， SH -6 では再びスーパースカラ 
構成になると発表している.結局は， シングル パイプ 
ラインでは性能的に見劣りがするということか. 

7 SH-X 

• SH 4- DSP の進化形？ 

業界では， SH 3- DSP の後継として SH 4- DSP が出る 
と2000年頃から噂されていた.しかし， SH -4 を CPU 
コアとすると消費電力が高くなるせいか，なかなか世 


66 









































































図 12 

SH - X のブロック図 



の中に出てこなかった.そうこうするうちに，2003 
年10月の Microprocessor Forum で SH - X が発表され 
た.その仕様は，まさに SH 4- DSP といえるものであ 
り，高性能と低消費電力を達成するためにさまざまな 
工夫が施されている. 

• 驚異的な性能 

命令キャッシュとデータキャッシュのステージをそ 
れぞれ1段増加させて， キャッシュ アクセスに余裕を 
もたせた.このため， SH -3 や SH -5 の5段パイプライ 
ンから2段増えて7段パイプラインになった.これに 
より，0.13パ m プロセスで， 400 MHz 動作を達成する. 
もっとも，ルネサステクノロジは SH - X で SH 3- DSP の 
置き換えをねらっっている節があり（応用分野は携帯 
機器？）， 216 MHz を現実的な動作周波数と想定して 
いるようである. 

消費電力は 0.4 mW / MHz (キャッシュを含む）で， 
400 MHz 動作時の消費電力は 160 mW と驚異的に小さ 
い.基本的には，ゲーテ ィッ ドクロックとキャッシュ 
のバンク分割を採用しているだけだが，何か秘密があ 
りそうである.特徴的な技術として，キャッシュの 
データ RAM はタグがヒットしたブロックしか活性化 
しない.この効果が大きいのだろうか. 


また， SH -4 と SH 3- DSP を融合して進化させたスー 
パースカラ構造を採用し，性能は 1.8 DhrystoneMIPS / 
MHz を達成する.つまり， 400 MHz 動作時には720 
MIPS と，これまた驚異的である.さらに売りが，720 
MIPS /0.16 mW = 4500 MIPS / W @1.0 V のパフオーマン 
スである.まあ，いくらスーパースカラの性能がよく 
ても， 1.8 DhrystoneMIPS / MHz は大袈裟（誇大広告） 
と思うが，ルネサステクノロジの自信（強気)が窺える. 
• SH - X の構成とのパイプライン 

図12 に SH - X のブロック図を示す. SH -4 と SH 3- 
DSP との融合ということで， DSP とその作業領域で 
ある XYRAM を内蔵する. 

図13 に SH - X のパイプラインを示す. SH -4 とは異 
なり整数 ユニッ トを2個備えた2ゥヱイ スーパース カ 
ラである.整数パイプラインと， DSP パイプライン， 
FPU パイプラインは並行動作可能である. SH - X の構 
成としては， DSP や FPU なし， DSP あり， FPU あり， 
の3種類が可能である. 

キャッシュアクセスに余裕をもたせるために，パイ 
プラインを，従来の5段から7段に変更した.しかし， 
パイプラインを7段にしたことで，分岐ペナルティと 
ロー ド ユース（ロー ドの結果を待ち合わせるイン ター 
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図 13 SH-X のバイプライン 


CPU パイプライン 
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AG 

D1 

D2 

W 



DSP パイプライン 


FPU パイプライン 


整数演算1 
整数演算2 
□—ド/ストア 


T1 

T2 

W 

M1 

M2 

W 

A1 

A2 

W 


データ 転送 
乗算 

ALU 演算 



D 

F1 

F2 

F3 

W 



F1 

F2 

F3 

F4 

F5 

W 


データ 転送 
演算 



図14 R 10000 のブロック図 


ロック）により，設計当初，同ークロックで36%の性 
能低下を招いたという.これを削減するために，分岐 
予測の強化(30%改善）とディレイド ALU 方式の採用 
(6%改善）を行い， SH -4 並みのパイプライン効率を達 
成している.そのため，性能は SH -4 と同じ 1.8 Dhry 
stoneMIPS / MHz である （ SH -4 は Dhrystonel . l , SH-X 
は Dhrystone 2.1 の性能であるが,細かいことは言わ 
ないのが業界人の情け？）. 

ディレイド ALU (Delayed ALU ) とは，整数演算の 
ALU へのデータ供給をできるだけ後にずらす ( SH-X 
の場合は1クロック）ことにより， ALU での待ち合わ 
せを低減する手法である.スキュード ALU (Skewed 
ALU ) という方式もこれと同じものであろう. 



R 10000 


• 4ウェイスーパースカラ構造 

次は MIPS 系のプロセッサから， R 10000 を取り上 
げてみる.図 14 に R 10000 の機能ブロック図を示す. 


図を見てわかるように R 10000 は，演算器として2 
個の整数 ALU , アドレス計算（ロード/ストア）ユニッ 
卜，浮動小数点加算器，浮動小数点乗算器，浮動小数 
点除算器(平方根器を兼ねる）をもつ.各演算器には， 
それぞれ16エントリからなる整数キュー，アドレス 
キュー，浮動小数点キューが接続されている.命令は 
各キューから対応する演算器に対してアウトオブオー 
ダで発行される. 

R 10000 は1サイクルで，4命令を命令キャッシュか 
らリードし，最大4命令をデコード/レジスタリネー 
ム可能である.デコードされた命令は32エントリの 
アクティブリストと呼ばれる命令キューと兼用のリ 
オーダバッファに 格納され，イン オーダな リタイア 
〔 R 10000 ではグラジュェート（卒業）と呼ぶ〕を管理す 
る.1サイクルで最大4命令をリタイアできる. 

演算器を6個備えているが，浮動小数点の乗算器と 
除算器の入力が共通なので，1度に最大5命令を発行 
することができる.その意味で5ウェイのスーパース 
カラであるが，デコード自体は1サイクルで最大4命 
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第 3 章並列処理の基本とス三パースカラ 


|ステージ 1 ステージ2 

1ステ， 

-ジ3 
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ステージ 5 | 

| ステージ 6 | 

1 ステ- 


厂 


n 





浮動小数点加算パイプライン 

1 

発行 

RF 

FAdd-1 

FAdd-2 

FAdd-3 

結果 



1 





浮動小数点乗算パイプライン 


発行 

RF 

FMpy-1 

FMpy-2 

FMpy-3 

結果 


整数演算パイプライン 
整数演算パイプライン 
□—ド/ストアパイプライン 


「命令デコードデータ 
.依存性チェック 


発行 

RF 

ALU 

結果 


発行 

RF 

ALU 

結果 


発行 


RF 


アドレス計算データキャッシュ 


口 P - T 3 キ」 •_ 


TLB 


結果 



レジスタ U ネーミング) 


分岐アドレス 

図15 R 1 0000のパイプライン 


RF :レジスタフアイルからのリード 

FAdd :浮動小数点加算命令の実行 

FMpy :浮動小数点乗算命令の実行 

ALU :整数演算命令の実行 

結果：演算結果のレジスタファイルへのライト 


令なので一般には4ウェイのスーパースカラと呼ば 
れている. 

図15に R 10000 のパイプラインを示す.一応，7ス 
テージパイプラインの体裁をとっているが，命令のデ 
コード/レジスタリネーム/キューへの格納（ステージ 
1,ステージ 2) までと，発行/実行/結果の格納（ス 
テージ3〜ステージ 7) までのステージは独立に動作す 
る分離 （ decoupled ) 方式である•アウトオブオーダ方 
式のスーパースカラとしては珍しくない. 

R 10000 のアーキテクチャを MIPS 社は ANDES 
(Architecture with Non-Sequential Dynamic Execu 
tion Scheduling ) と呼び，アウトオブオーダ実行，分 
岐予測，投機実行などの総称としている.レジスタリ 
ネームは3 2個の論理レジスタを6 4個の物理レジスタ 
へ割り当てる.割り当て可能な物理レジスタはフリー 
リストと呼ばれるテーブルで管理される.物理レジス 
夕は整数と浮動小数点の2系統が用意されている. 

分岐予測は，512エントリ x 2ビットの情報で過去2 
回の分岐/不分岐の履歴を保持し，予測した方向に投 
機実行する.投機実行は，アクティブリストが一杯に 
なるか，レジスタリネームのためのフリーリストが空 
になるまで，あるいは分岐命令を4個デコードするま 
で（つまり4回続けて分岐予測するまで）継続される. 
分岐予測のたびに，その時点での論理レジスタと物理 
レジスタの対応表(マップテーブル）のコピーを残して 
おき，分岐予測が失敗すると，そのコピーに基づいて 
パイプラインを分岐元の状態に戻す. R 10000 では演 


算はすべて物理レジスタに対して行われ，アーキテク 
チャ上のレジスタ（論理レジスタ）にはリタイア時に対 
応する物理レジスタから書き戻される. 

なお，整数キューとアドレスキューは，基本的には， 
整数レジスタが対象なので，2種類持つ必然性は少な 
い.しかし，ノンブロッキングキャッシュの実現を容 
易にするためにアドレスキューが特設されているもの 
と推測される.もっとも， MIPS の命令セットにはデ 
スティネーシヨンレジスタが浮動小数点レジスタのも 
のもあるので，そのせいかもしれない. 

• 命令フェッチ 

ここで， R 10000 のパイプラインの詳細について説 
明する. 

各サイクルにおいて， R 10000 は 32 K バイ トの 2ウ 
ェイセットアソシアティブ構成の命令キャッシュから 
4命令をフェッチできる.命令キャッシュに格納され 
ている命令は37ビット長で，命令キャッシュのリフ 
ィル時に32ビット長の命令をプリ デコードし たもの 
である.この余分な5ビットによって各命令を分類し， 
その命令が実行されるユニット情報を付加することで 
命令 デコードを 効率的に行える.このプリフェッチ/ 
プリ デコードステージは パイプライ ンステージの 中に 
は 数えられていない. 

余談であるが，一つの命令長である32ビット （4 バ 
イト）が37ビットに拡張されて格納されるので，命令 
キャッシュの容量は正確には 37 K バイトである. 
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籲命令デコード 

命令キャッシュからフェッチされた命令は，レイテ 
ンシが 2ステージの 命令 デコーダに 渡される.実際の 
デコードは 最初の ステージで 行われ， 2 番目の ステー 
ジ では レジス タリ ネームが 行われる. 

MIPS アーキテクチャではレジスタの本数は整数用 
と浮動小数点用にそれぞれ32本ある.これは論理レ 
ジスタと呼ばれる. R 10000 はさらにレジスタリネー 
ム用に整数用と浮動小数点用の物理レジスタをそれぞ 
れ64本備えている.プログラム的には32本の（論理） 
レジスタしか見えてないが， MPU 内部では2倍の本 


数の(物理）レジスタが処理結果を保持している. 

レジスタリネームはアウトオブオーダの投機実行を 
実現するために重要である. R 10000 は演算の中間結 
果や投機実行の結果を，この不可視な物理レジスタに 
保持する.これらの結果はすべての依存性が解決され， 
投機的な実行経路が消え去ったときにプログラムから 
見えるようになる. 

MPU 内部で何が起きているかを管理するために， 
R 10000はすでに使用されているレジスタ（の番号）を 
保持するアクティブリストと利用可能なレジスタ（の 
番号）を保持するフリーリストを用意している•アク 


V r 4131 のパイプライン 


V r 4131 は NEC が開発した64ビット MIPS プロセッサ 
である.同社の組み込み制御用 MIPS RISC としては初 
めて スーパースカラ 構造を採用した. V R 4131 の特徴は， 
性能もさることながら，低消費電力である点である.通 
常の スーパースカラ 構造では消費電力が増大するため， 
ユニークな パイプライン 構造を採用して いる. v r 4131 
では 8/ T 番地と(8» + 4潘地の命令が必ず組で処理される. 
このため， スーパースカラと 呼ぶよりも VLIW と呼ぶ 
ほうがすっきりする. VLIW 構造を採用す る ことで制御 
回路を単純化し，低消費電力を図っているのである.こ 
れは， Transmeta 社の Crusoe の主張に近い. 

V R 4131 のパイブラインは典型的な次の6ステージか 
らなる. 

1) IF : 命令フヱッチ 

2) RF : レジスタフヱッチ/命令デコード 

3) EX :実行 

4) DC 1 : データキャッシュ（その 1) 

5) DC 2 : データキャッシュ（その 2) 

6) WB :ライトバック 


このパイプラインを一言で表せば「隣接する2命令単 
位で処理するシングルバイプライン」である. MIPS の 
命令は4バイト固定長なので，8/?番地と（8» + 4)番地の 
命令を 一つの 命令とみなし，それを6 ステージの シング 
ルパイブラインで実行する〔図 A ( a )〕. そのためにすべ 
ての演算器を2系統備えている（乗除算とロー ド/ストア 
ユニッ トは例外). 

隣接する2命令を同時に実行するわけであるが，その 
命令間に レジスタの RAW 依存性がある場合は，当然な 
がら不都合が生じる.それを回避するために， V r 4131 
では レジスタの RAW 依存がある場合は，（心+ 4) 番地 
の 命令を RF ステージで 1 クロック 待ち合わせて， 8" 番 
地の演算結果を EX ステージからフォワーデイ ングす 
る.つまり，2命令を依存性がない場合は1 クロック か 
けて実行し，依存性がある場合は2 クロック かけて実行 
する〔図 A ( b )〕. また，実行 ユニットを一つし か備えな 
い乗除算命令やロー ド/ストア命令が隣接する場合は， 
強制的に依存関係を発生させて逐次的に実行させると思 
われる. 


図 A V R 4131 のパイプライン 
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( 異なる命令1 
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(a) V R 4131 のパイプライン（依存性なし） 


命令1と命令 2. 命令4と命令5に依存性があると仮定 


(b) V R 4131 のパイプライン（依存性あり） 
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ティブリスト内のレジスタは二つの状態を取ることが 
できる.一つは「アクティブ」である.つまり，実行 
中の命令で使用されている状態である.もう一つは 
「コンプリート」である.つまり，命令実行の最終結 
果を示す状態である. 

ある瞬間には最大32命令が「ァクティブ」状感に 
ある.「コンプリート」状態になり結果がグラジュ 
エートすると，不要になったレジスタはアクティブリ 
ストから削除されフリーリストに返却される.投機実 
行はフリーリストに利用可能なレジスタがあり，レジ 
スタリネームが可能な限り継続できる（アクティブリ 
ストに空きがあることも必要）. 

レジスタリネームは，また，分岐予測において重要 
な役割を果たす.つまり，分岐が誤って予測されたと 
きに，投機的な実行経路を迅速に破棄する役割がある. 
R 10000 は分岐ごとに，最大四つの分岐の深さまで， 
投機実行の入れ子が可能である.実行経路の分岐点ご 
とに，レジスタ状態のコピーをもつ.そのコピーは， 
MIPS の表現によると，その時点で存在しているレジ 
スタリネームマップ(割り当て表）のシャドウマップと 
呼ばれる.後に分岐予測が失敗したことが判明しても， 
R 10000 はバッファのフラッシュやレジスタのクリア 
を行う必要はない.単に（予測を誤った分岐命令に対 
応する）最適なシャドウマップを現状のレジスタリ 
ネームマップにコピーし直すだけでよい.そのとき， 
無効な結果を保持しているレジスタはフリーリストへ 
返却される.この操作は1サイクルで行われる.この 
ため，誤った分岐予測のペナルティは1〜4サイクル 
になる.これは R 10000 が何回誤った予測を行ったか 
に依存する.最大の入れ子である4個の分岐予測を誤 
つ た場合が最悪の4サイクルになる. 

分岐予測も動的に行われる. R 10000 は2ビットの情 
報で各分岐の履歴を記憶しておく.これは4種類の状 
態，っまり，「強く分岐する」，「弱く分岐する」，「弱 
く分岐しない」，「強く分岐しない」である. MIPS に 
よると R 10000 の分岐予測の正確さは90%以上である 
という.これは，典型的な動的な命令列において，平 
均的に6命令に1回分岐が現われるという根拠に基づ 
いてい るら しい. 

#命令実行 

R 10000 は各サイクルにおいて，最大4命令をフエ 
ッチし，最大4命令をグラジュエートするが'，その中 
間には五つの実行ユニットがある.このため，可能性 
としては，各サイクルで，5命令を同時発行，実行， 


第3章並列処理の基本とスーパースカラ 

:: 


コンプリートできる.このため， R 1 OOO 0 は 4 ウェイ 
スーパースカラとも 5 ウェイスーパースカラとも呼ば 
れる.しかし，命令の処理数に関するこの不整合は偶 
然ではない.ピークのバンド幅を大きくしておくこと 
で，内部資源の割り当てが効率よく行え，将来の拡張 
の余地も残している.……という説明はもっともらし 
いが，本当にピーク時のバンド幅を考慮するなら，整 
数演算 ALU も FPU も 4 個ずつ用意すべきであろう. 
実際，後継機種ではそのような構成を採るという動き 
もあったようだが，いまだ実現には至っていない. 

機能ユニッ トは 二つの64 ビット整数演算 ALU ， 一 
つのロード/ストアユニット，二つの FPU からなる. 
FPU のうち，一つは加減算用，残りは乘除算/平方根 
用である.後者の FPU は実際には，同一の発行/コン 
プリート論理を共有する，乗算，除算(平方根を含む） 
を行うサブ ユニッ トの組である.それらは丨孚動小数点 
の乘算と除算を（同時発行はできないが)並行に実行で 
きる. 

二つの 64 ビット ALU はほとんど同一である.ただ 
し，乗除算は•方の ALU でしか処理できない.他方 
のユニットには分岐予測の結果を確かめる論理が 
ある.シフトも一方のユニットでしか実行できない. 
ロード/ストアユニットはすべてのアドレス計算，ア 
ドレス変換を処理する. 

ここで問題となるのは NOP 命令である. MIPS アー 
キテクチャの NOP 命令は 「SLL r 0, rO , rOj , つま 
りシフト命令である.プログラム中にかなりの頻度で 
出現する NOP 命令が片方の ALU でしか実行できない 
というのは性能上も問題である.これを回避するため， 
R 10000 では NOP 命令はプリデコード時に 「ADD rO , 
rO , rOj などの並列実行可能な命令に変換している 
と聞く.また，これを考慮してか，最新の MIPS 32/ 
MIPS 64 アーキテクチャでは SSNOP (SuperScalar 
NOP ) なる命令が定義されている. 

五つの 実行 パイプラインはすべて， 最低1 ステージ 
からなる実行 ステージと， 上述の フェッチ，デコード， 
リネームステージをもち，最後がグラジュエートス 
テージである.このためパイプラインの最小ステージ 
数は 5 ステージである. 

命令は最初の3 ステージを 通過するときにはプ ログ 
ラムの順序を維持している.そして，3種類の キュー 
に格納され，最適な実行ュニットに発行されるのを待 
つ. これらの キュー （ ALU , FPU , ロード/ストアユ 
ニット用）のそれぞれは16エントリからなり，そのキ 
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ューの どの位置からで も 発行ができる.つまり， この 
時点からプログラムの順序を維持しなくなる. 

ある条件下では， R 10000 は1サイクルで最大5命令 
をキューからアウトオブオーダに発行できる.しかし， 
多くの場合は，命令の依存性に応じて1〜4命令を発 
行する. IPC から察するに，平均は2命令前後であ 
ろぅ. 

ロー ド処理がデータキャッシュにヒットするときに 
は2サイクルかかる.また，ロードは投機的にアウト 
オブオーダで実行される.これに加え，ノンブロッキ 
ングキャッシュ構造によりロー ドを効率的に処理す 
る.ノンブロッキングとは，ロードがキャッシュにミ 
スしてもストールすることなく先に進める技術であ 
る.アウトオブオーダで命令の追い越しが可能な場合 
は，とくに効果的である. R 10000 では最大四つのロー 
ドをノンブロッキングで実行できる. 

• グラジュエート（リタイア） 

グラジュエートとは物理レジスタの内容を対応する 
論理レジスタに書き戻す処理である.リタイアとも呼 
ばれ，インオーダな完了を実現する. 

パイプラインの最終 ステージに おいて，命令が コン 
プリートしていても，すべての依存性が解決され，投 
機的な実行経路が確定するまでは，グラジュエートで 
きない. R 10000 は正確な例外を保証するので，例外 
を起こす命令の後続命令はコンプリートしていても， 
その命令は同様にグラジュエートできない. 

グラジュエート時には，物理レジスタが論理レジス 
夕にリネームし直され，その内容が有効になる.この 
とき，もっとも前にコンプリートした命令から最初に 
グラジュエートする.グラジュエートを管理するのは 
アクティブリストである.あるサイクルにおいて，ア 
クティブリストの先頭から見て連続してコンプリート 
している命令が，その時点でのグラジュエートの対象 
になる.したがって，アクティブリストの先頭の命令 
がコンプリートしない限りは1命令もグラジュエート 
できない. R 10000 は各サイクルで，最大4命令をグラ 
ジュエートできる.この操作により，命令の流れがそ 
の本来のプログラムの順序に戻される. 

• R 10000の性能 

MIPS 社の発表では R 10000 の IPC は 1.5 だという. 
これが ， Dhrystone MIPS ではなく，本来の意味の 
MIPS 値から求められたものとすればかなりの高性能 
である.出典は失念したが'，4ウェイスーパースカラ 
では IPC は 1.5 程度が限界だそうである.つまり， 


R 10000 は IPC 的には究極の性能を達成しているとい 
えなくもない. 

余談だが， R 10000 の後継機種である R1 2000 では， 
動作周波数が 200 MHz から 300 MHz に引き上げられた 
ほかに，マイクロアーキテクチャ的には，アクティブ 
リストが48ェントリに，分岐予測テーブルが2048ェ 
ントリに増加している.また新たに32ェントリの分 
岐ターゲットバッファが追加されていた. R 1 2000の 
後継機種として R 1 4000, R 1 4000 A , R 1 6000 が開発 
されており，その動作周波数は 500 MHz ，600 MHz , 
700 MHz である•とくに R 1 6000は2003年4月に発表 
されたが， 1 GHz をはるかに下回る周波数は寂しいも 
のがある. 

R 1 8000 は2001年の HotChips シンポジウムで概要 
が発表された.仮想アドレス空間の拡張 (52 ビット）， 
2個の FPU を実装， L 2 キャッシュ （1 M バイト）の内蔵 
と L 3 キャッシュ（最大 64 M バイト）インターフェース 
の内蔵という点が新たに公開された.動作周波数は 
800 MHz 〜1 GHz と予想されている.周波数的には時 
代遅れの感がなきにしもあらずである. 

9 PowerPC 750 

•パイプライン 

次は PowerPC アーキテクチャのプロセッサを取り 
上げてみよう. PowerPC は IBM と Motorola が独自に 
開発している MPU であり，その種類も豊富である. 
しかし，その内部構造はどれも似ている. 

ここでは，任天堂の GAMECUBE の MPU である 
Gekko の基になった PowerPC 750 について説明する. 
Gekko は IBM が開発した MPU で， PowerPC 750 (以降 
PPC 750 と略）を下敷きに単精度 FPU の強化と L 2 キャ 
ッシュを内蔵したものである. 

図16 に PPC 750 の内部ブロック図を示す.また， 
命令の流れとパイプラインは，それぞれ， 図17，図 
18 のようになる.以下にそれぞれのユニットの動作 
について説明する.なお， 図18 の各ステージの説明 
は次のとおりである. 

►フェッチ 

フェッチステージと は命令が要求されてから命令キ 
ューに格納されるまでの間を示す.レイテンシは可変 
で，命令が BTIC ， 内蔵キャッシュ， L 2 キャッシュ， 
システムメモリのどこにあるかに依存する.命令キ 
ユーは IQ 0 〜 IQ 5 の六つのエントリをもっている. 
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バイプライン 完了キューに入るのは LR や CTR を更新する分岐命令のみ 
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第 3 章並列処理の基本とスーパースカラ 


►ディスパッチエントリ中 

命令は IQO と IQ1 から デ ィス パッチ される. デ ィス 
パッチは 瞬時に行われるので 「フェッチ ステージの最 
後のサイクル」と「実行ステージの最初のサイクル」 
の中間の時点を表す事象として記述する. 

►実行 

命令によって規定される処理はそれに最適な実行ユ 
ニットで行われる.この「実行ステージ」から完了 
(コ ンプ リーシヨ ン） キューに 入る. 

►コンプリート 

命令は コンプリーション キューにある. PPC750 で 
は コンプリ ー シヨン キューが リ オーダ バッファの 役割 
をしている.最終ステージにおいて，実行された命令 
の結果がライトバックされ，命令はリタイアする.コ 
ンプリーシヨン キューは CQO 〜 CQ 5 の六つのエン ト 
リ をもっている. 

► リタイアメントエントリ中 

コンプリートした命令は CQO と CQ1 からリタイア 
できる.デイスパッチと同様に，リタイアはコンブ 
リートステージにおける最後のサイクルの終わりで発 
生する事象である. 

• 命令の流れ 

PowerPC において命令は，命令ユニットから実行 
ュニットに流れて処理される.命令ユニットは逐次フ 
ェッチ 器，6 エントリの 命令キュー （IQ)， ディスパッ 
チ ユニット， 分岐処理ュニット （BPU) からなる.逐 
次 フェッチ 器と BPU から供給される情報に基づいて 
フェッチすべき 次の アドレスが 決定される.そして， 
逐次 フヱッチ 器は命令キャ ッ シュから命令を読み出し 
て命令キューに渡す. BPU は逐次 フェッチ 器に読み 
込まれる分岐命令を解析し，分岐条件が確定している 
場合は分岐命令を削除し， フェッチを 分岐先に切り替 
える.分岐条件が確定していない場合は，静的または 
動的な分岐予測を行い，投機実行をする.分岐条件が 
確定する間に フヱッ チした命令は BPU に保持される. 

図 16 や図 17 に示すように， PPC750 では命令 キュー 
とリザべ ーションステーション が分離されて いる. 命 
令 キューが， いわゆる 通常のリザべ ーションステ ー シ 
ョンに 相当し， PPC750 のリザべ ーションステーショ 
ン は， 後続 命令を時間的なロスなしに実行するための， 
単なるバッファの役割しかしていない（ように思える）. 

命令はインオーダに各実行 ユニッ トのリザべーショ 
ンステーションに渡されて逐次的に実行される.各実 
行 ユニットの 処理は独立しているで，全体としてはア 


ゥトオブオーダ 実行になる.命令は コンプリーション 
キュー （コンプリ ー ション ユニッ トのリオーダバッフ 
ァのこと）の管理の下，インオーダに終了する. 

命令の処理はリネームされたレジスタに対して行わ 
れ，コンプリーションユニットによるリタイア時に 
アーキテクチャ上のレジスタ （GPR, FPR) に書き戻さ 
れる. 

• 命令キューとディスパッチ ユニッ ト 

命令キュー (IQ) は最大6命令を格納できる.命令フ 
ェッチ器は IQ に空きができると直ちに命令キャッシ 
ュから命令を読み込む.そして，分岐命令を除くすべ 
ての命令は，1クロックに最大2命令の割合で， IQ の 
先頭とその次 (IQO，IQ1) から各実行ユニットにディ 
スパッチされる.五つの実行ユニット （IU1，IU2, 
FPU, LSU, SRU) はそれぞれ独立にリザべーション 

ステーションをもっている.デイスパッチユニットは 
ソースとデステイネーションレジスタの依存性をチェ 
ックし，コンプリーションキューに 空きが あれば新し 
い命令を， その 命令が実行され るべき 実行 ュニットに 
デイスパッチする.これは，各ユニットのリザべーシ 
ョンステーションに 命令を移動す ることに 等しい. 
•分岐処理ユニット ( BPU ) 

BPU は，逐次フェッチ器から分岐命令を受け取り， 
条件分岐に関する CR(Condition Register) の先読み操 
作を行うことで分岐条件を早期に確定する.これによ 
り，多くの場合は0サイクルで分岐を実現できる.無 
条件分岐と条件が確定している条件分岐は直ちに実行 
される. 

分岐条件が未確定な条件分岐命令に関しては，ァー 
キテクチャ的に定義された静的な分岐予測または動的 
な分岐予測を用いて分岐の経路が予測される.予測に 
より，予測した経路から，命令フヱッチ，ディスパッ 
チ，実行が行われる.しかし，予測が正しいと決定 
(解決）されるまで，それまでに処理した命令はコンブ 
リートすることができず，結果をレジスタにライトバ 
ックすることもできない. 

もし予測を誤った場合，誤った経路の命令はプロセ 
ッサからフラッシュされ，正しい経路からの処理が開 
始される.いわゆる投機実行であるが， PPC750 は2 
番目の分岐命令まで予測することができる. 2番目に 
予測された命令の経路からは，命令のフェッチはでき 
るがデイスパッチはできない. 

動的な分岐予測には512ェントリの分岐履歴テープ 
ル （ BHT ) を用いる.これは各エントリに2ビットの情 
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報を保持し，それらは，分岐命令に対する 「NOT 
TAKEN 」， 「強い NOT TAKEN 」，「 TAKEN 」， 「強 
い TAKEN 」 という 四つのレベルを 示す.もし，動的 
な分岐予測ができない場合は，条件分岐命令に埋め込 
まれている予測ビットを使用する. 

このように， PPC 750 は未解決の条件分岐命令に出 
会うと，分岐が解決するまで結果をアーキテクチャ上 
のレジスタにライ トバック はしない（リネームレジス 
夕に保持する）が，予測した分岐先からの経路からの 
命令を実行する（投機実行）.この実行は2番目の未解 
決な分岐命令に出会うまで継続する.もし，分岐が 
TAKEN (TAKEN と予測）するとき， TAKEN しない 
経路からの命令は破棄され，予測した側の命令の経路 
が' IQ にフェッチされる. 

BTIC(Branch Target Instruction Cache ) は，最近 
使用された分岐先の2命令を保持する64エントリのキ 
ャッシュである.命令フェッチが BTIC にヒットする 
とき，命令は次のクロックサイクルで命令キューに与 
えられる.これは命令キャッシュからリードするより 
も1クロック早い.それに引き続く命令は次のクロッ 
クサイクルで命令キャッシュからリードされる.つま 
り， BTIC は誤って命令をディスパッチする回数を減 
らし，ターゲットストリームからの1クロック早い開 
始を可能にする. 

BPU は分岐のターゲットアドレスを計算する加算 
器と3個のユーザーが制御するレジスタであるリンク 
レジスタ （ LR )， カウントレジスタ （ CTR )， CR を含む. 
BPU はある種の分岐命令ではサブルーチンコールの 
復帰位置を計算し， LR レジスタに格納する.さらに 
LR は分岐コン デイシ ヨナルリンクレジスタ （ bclrx ) 
命令に対するターゲットアドレスを含む. CTR はカウ 
ントレジスタに対する条件分岐 ( bcctrx ) 命令の分岐 
ターゲットアドレスを含む. LR や CTR は特殊レジス 
夕 （ SPR ) であり，その内容は GPR 間で転送可能である. 
BPU は GPR (整数レジスタ）や FPR (浮動小数点レジス 
夕）と独立の特殊レジスタを使用するため，分岐命令 
の実行は整数や浮動小数点命令の実行とは別に，独立 
して行うことができる. 


• コンプリーシヨンユニット 

コンプリーションユニットは命令ユニットと密接に 
連動して動作する.命令はプログラムの順序でフェッ 
チされディスパッチされる.ディスパッチ時に，6エ 
ントリのコンプリーションキューの連続するエントリ 
に，その命令を入れることによってプログラムの順序 
を保持する.コンプリーションユニットは，命令をデ 
ィスパッチから実行を通じて追跡し，コンプリーショ 
ンキューの二つの出口 （ CQO ， CQ 1) からプログラムの 
順序でリタイアさせる.コンプリーションキューに空 
きができるまで命令を実行ユニットにディスパッチす 
ることはできない. 

また， CTR や LR を更新しない分岐命令は命令スト 
リームから削除され，コンプリーションキューのエン 
トリを占有することはない. CTR や LR を更新する命 
令は，それらが実行ユニットに発行されないことを除 
き，非分岐命令と同様にディスパッチされコンプリー 
卜する. 

命令をコンプリートさせることはアーキテクチャ上 
のレジスタ （ GPR や FPR , LR ， CTR ) に実行結果をライ 
トバックすることである.インオーダなコンプリーシ 
ョンを行うことにより， PowerPC が分岐予測の誤り 
を回復するときや例外を発生する場合の正しい動作を 
保証する.命令がリタイアするとき，その命令はコン 
プリーシヨンキューから削除される. 



Powe「4 のバイプライン 


• Powe 「4 とは 

Power 4 は， UntraSPARC に対抗するために，最新 
技術の粋を集めて開発した， PowerPC アーキテクチ 
ャを実装する EWS 向け MPU である. PowerPC は64 
ビットアーキテクチャを定義しているが，ほとんどの 
製品は32ビットアーキテクチャを実装する.しかし， 
Power シリーズでは Power 3 から64ビットアーキテク 
チャを採用している. 

Power 4 では，高い動作周波数で動作させるために， 
PowerPC よりも命令の実行処理を単純化してある. 
つまり，通常4命令から構成されるグループを形成し 


注 1 :この意味で， Power 4 は一般の PowerPC よりも IPC が低いと考えられる.しかし， IBM の PowerPC は， Power 4 以降は，すべて 
Power 4 の技術を採用していると報道されている.その技術が何であるか具体的には不明である. PowerPC のパイブラインが， 
Power 4 と同様に， グループ 内のみでのアウトオブオーダ実行になるとしたら， IBM は IPC よりも高い周波数での実行を選択した 
ことになる. 
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図19 Power 4 チップ 


図20 

Power 4 モン ユール 


他のモジュールへ 



他のモジュールがら 


て，グループを逐次的に実行する.グループ内の命令 
はアウトオブオーダで実行できるが，グループ内の全 
命令の実行が終了しないと，新しいグループを実行で 
きない注 1 . 

また， Power 4 は，最初から， SMP (Symmetric 
Multi - Processor ) 構成が可能なように設計されている. 


まず， Power 4 チツプは二つのプロセツサを含む CMP 
(Chip Multi - Processor ) である（図1 9) • これを 4 組 
SMP 結合して，一つの MCM ( Multi-Chip Module ) を 
形成する（図 20). さらに， Power 4 の MCM は 4 枚の 
結合が可能で，最大 32 ウェイの Cache Coherent 
NUMA システム構成を可能とする. 


77 








































































































































































































































データキャッシュ 

図21 Power 4 のブロック図 

後年 IBM は， Power 4 をシングルプロセッサ化し， 
AltiVec 互換の SIMD 命令を追加した PowerPC 970 を 
開発し ， Power Macintosh G 5 用にリリースした. 

以下では，単体の Power 4 プロセッサについて解説 
する. 

• Powe 「4 プ□セッサ 

図 21 は Power 4 プロセッサのブロック図を示す. 
チップ上の二つのプロセッサは同一で，ソフトウェア 
制御の SMP 構成を提供する. Power 4 の CPU コアの 
マイクロ アーキテクチャは，投機実行可能なアウトオ 
ブオーダスーパスカラで，各サイクルに最大8命令を 
発行し，最大5命令を完了する.レジスタリネーミン 
グプールと他のパイプライン構造をもつアウトオブ 
オーダ動作可能な資源により，ある瞬間には200命令 
以上が「飛行中 （in flight ) J となる.命令レベルの並 
列性を引き出すために，毎 クロックで 命令発行可能な 
八つの実行ユニットを備える.さらに同機能の FPU 
を二つ備え，毎クロックで積和命令 （fused multiply 


and add ) を開始できる.つまり，各サイクルで，最 
大4個(乗算 x 2，加算 x 2) の浮動小数点命令を実行で 
きる. 二つの 固定小数点(整数)ユニットは，効率的に 
データを供給するために，それぞれに独立なロード/ 
ストア ユニットが 結合されている.さらに， 一つの 分 
岐実行 ユニット，一つの 条件レジスタ関連の論理演算 
を行う ユニッ トも備えている. 

• 分岐予測 

Power 4 も高い周波数を実現するため，長いパイプ 
ライン構造を採用する.このため，他の MPU と同様 
に分岐予測機構を備えている. Power 4 では，2段階 
の分岐予測機構を採用する.加えて，カウントレジス 
夕やリンクレジスタで指定されるアドレスへの分岐も 
予測される. 

Power 4 においては，最大8命令がダイレクトマッ 
プの 64 K バイトの命令キャッシュから，各サイクル 
でフェッチされる.分岐予測機構はフェッチされた命 
令を走査し，各サイクルで最高二つの分岐命令を認識 
できる.分岐命令のタイプに応じ，いろいろな分岐予 
測機構が分岐の方向と分岐先アドレスを予測する.当 
然のことながら，無条件分岐に対する分岐方向は予測 
されない.無条件にフェッチ先が切り替わる.分岐予 
測対象は条件分岐であり，命令フェッチ時に条件レジ 
スタのビットが判明していれば，直ちに分岐/非分岐 
を判断する. 

リンクレジスタへのブランチ命令 ( bclr ) とカウント 
レジスタへの分岐命令 （ bcctr ) の分岐先アドレスは， 
それぞれ，ハードウェアで実装されたリンクスタック 
とカウントキャッシュを用いて予測される.絶対アド 
レスと相対アドレスによる分岐命令の分岐先は，分岐 
命令の走査時に計算される. 

分岐命令はパイプラインを進んでいき，最終的には 
分岐実行ユニットで実行される.そこで，最終的な分 
岐方向を決定する.この時点で分岐予測が正しければ， 
分岐命令は単に他の命令と同様に終了する.分岐予測 
が間違っていれば，それまでにフェッチした命令を廃 
棄し，正しい方向からフェッチをし直す.典型的な投 
機実行である. 

Power 4 では，分岐命令の方向を予測するために， 
3種類の分岐履歴テープルを使用する. 

第1のテーブルは局所予測器と呼ばれる.これは， 
伝統的な分岐履歴テーブル （BHT : branch-history 
table ) と似ている.これは，分岐命令のアドレスによ 
ってインデクスされる 16384(16 K ) エントリの配列で， 
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分岐が成立するかしないかの 1 ビットの情報を出力 
する. 

第2のテーブルは大局予測器と呼ばれる.これは分 
岐に至る実際の径路に基づいて分岐方向を予測するも 
のである.この実行経路は11ビットのベクタによっ 
て特定される.これは，命令キャッシュから1回にフ 
ェッチされる命令の組 (8 命令）ごとに1ビットが割り 
当てられ，それまでにフェッチされた11回のフェッ 
チの組を示す.このべクタは大局履歴べクタ （global 
history vector ) と呼ばれる.各ビットは，フェッチさ 
れる次の組が連続的なキャッシュのセクタからのもの 
か否かを示す.大局履歴べクタは，この情報を得て， 
実際の実行径路を知る.つまり，命令フェッチの方向 
が変更されるなら，その後に連続してフェッチされた 
命令の組は廃棄される.そして，同時に大局履歴べク 
夕が更新される.大局履歴べクタと分岐命令の存在す 
るアドレスのビットごとの排他的論理和は，16384エ 
ントリの大局履歴テーブルをインデックスし，もう1 
ビットの分岐予測情報を生成する.局所予測器と同様 
に，この1ビットの大局的予測情報は，分岐が成立す 
べきか否かを示す. 

第3の テーブルは 選択 テーブルと 呼ばれる.これは， 
与えられた分岐に対し，二つの予測機構のどちらが正 
しいかを判断する.そして，局所的と大局的予測の選 
択を行う.これは，大局履歴 テーブルと 同じ方式で 
16384 エントリ の選択 テーブルがインデック スされ， 

1ビットの選択情報を出力する.このような分岐予測 
テーブルの組み合わせは，非常に正確な分岐予測を行 
うことができる.概念的には，大局履歴テーブルで次 
の命令の位置（キャッシュセクタ）を予測し，そこに条 
件分岐命令があれば，局所履歴テーブルで分岐方向が 
予測されるということであろう.実際には，これらの 
処理が同時に行われる. Power 4 の分岐予測方式は， 
通常の分岐予測と次にフェッチするキャッシュライン 
を予測して組み合わせる， Alpha の分岐予測方式によ 
く似ている. 

動的な分岐予測はソフトウヱアによって上書きでき 
る.これは，ソフトウェアがハードウェアよりも正確 
に予測できる場合に有用である.これは，条件分岐命 
令コードの中へあらかじめ決められた2ビットを設定 
することによって実現される.1ビットはソフトウェ 
アによる上書きを指示し，もう1ビットは分岐の方向 
を指示する.もし，この2ビットが0なら，ハードウ 
ェアによる分岐予測が適用される. 
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•命令フェッチ 

命令は，命令フヱッチアドレスレジスタ （IFAR : 
instruction-fetch address register ) に基づき，命令キ 
ャッシュからフェッチされる.通常， IFAR は，分岐 
予測機構によって決定されたアドレスを設定される. 
上述のように，分岐予測を誤るような場合は，分岐実 
行ユニットによって，フヱッチされるべき正しいアド 
レスが設定される.さらに，命令の流れを変更する別 
の要因がある.これは，例外または外部からの割り込 
みによる.いずれにせよ， IFAR に値が設定されたら， 
命令キャッシュがアクセスされ，1サイクルに最大8 
命令がフェッチされる.命令キャッシュの各ラインは 
32個 （128 バイト）の PowerPC の命令を保持する.各 
ラインは四つの同等なセクタに分割される.キャッシ 
ュミスは頻繁でないと仮定しているため，面積を節約 
するために，命令キャッシュは，各サイクルに1セク 
夕をリード/ライトできる1ポートの設計になってい 
る.命令キャッシュディレクトリ （IDIR : I-cache 
directory =タグメモリ）は実効アドレスでインデクス 
され，各ェントリは42ビットの実アドレスを含む. 
つまり，仮想インデクス，物理タグキャッシュである 
ことがわかる. 

命令キャッシュミスが発生すると，命令は L 2 キャ 
ッシュから4回の32バイトの転送によってフィルされ 
る. L 2 キャッシュはクリティカルセクタ（そのキャッ 
シュラインを参照した特定のワードアドレスを含むセ 
クタ）からリードされる.命令フェッチ機構は，この 
要求された命令をできるだけ早くパイプラインに投入 
する.さらに，残りのキャッシュラインは命令プリフ 
ェッチバッファに格納され，連続する命令フヱッチに 
備える. 

PowerPC アーキテクチャでは，実効（仮想）アドレ 
スから実（論理）アドレスへの変換を行うために， 
TLB ( Translation-Lookaside Buffer ) と SLB ( Segment - 
Lookaside Buffer ) を定義している.これは2段階の構 
成を採用する. 

アドレス変換には数クロックかかるので，1回変換 
が行われたら，実効アドレスと実アドレスの組を， 
128ェントリの2ウェイセットアソシアティブ構成の 
ERAT ( Effective - to-Real Address Translation ) テープ 
ルと呼ばれる配列に格納する. Power 4 では，命令 キ 
ャッ シュとデータ キャッ シュに対応して 二つの ERAT 
を実装する.それぞれは， IERAT ， DERAT と呼ば 
れる.これらの ERAT は実効アドレスでインデクス 
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される.これらは，俗に言うマイクロ TLB である. 

IERAT や DERAT は，各プロセッサに実装されて 
いる1024エントリの4ウェイセットアソシアテイブ構 
成の共通 TLB の内容をコピーしたものである. 

命令パイプラインが命令受け付け可能になると， 
IFAR の内容は，命令キャッシュ， IDIR ， IERAT , 
分岐予測機構に転送される.次のサイクルで，命令キ 
ャッシュから命令が読み出され，命令キューに渡され 
る.そして，デコード，クラック （ crack ), グループ 
分け （group formation ) が行われる.命令キューへの 
格納は命令キャッシュのヒットを待たずに行われる. 
同じサイクルで， IDIR から実アドレス， IERAT から 
実効アドレスと実アドレスの組，予測された分岐方向 
の情報を受け取る. IERAT はインデクスされたエン 
トリが有効であることをチェックし， IDIR からの実 
アドレスが， IERAT のエントリの内容と致するか 
どうかチェックする.もし， IERAT のエントリが無 
効なら，実効アドレスは TLB と SLB で変換される. 
この場合は命令フヱッチは一時停止（ストール）する. 
IERAT が有効で実アドレスが一致する場合，初めて 
命令キャッシュがヒットしたことが判明する.命令キ 
ャッシュがミスする場合でも，命令キューに格納され 
た命令は(無効であるが)処理を継続され，パイプライ 
ンが止まることはない. 

もし，キャッシュミスが発生すれば，次のように動 
作する.まず，命令プリフェッチバッファがチェック 
され，要求された命令が存在すれば，あたかも命令キ 
ャッシュから読み出したかのように，その命令をパイ 
プラインに入力する.もし，命令プリフェッチバッフ 
ァに望みの命令が存在しなければ， L 2 キャッシュに 
リフイル要求 （ demand-fetch reload request ) が発行さ 
れる. L 2 キャッシュは，このリフィル要求を最優先 
で処理する.そして L 2 キャッシュから来る命令は命 
令キャッシュに格納される.同時に，4エントリ（各 
エントリは32命令を格納）の命令プリフェッチバッフ 
ァにも格納される. 

• デコード，クラック （ crack ), グループ分け 
(.group formation) 

命令はアウトオブオーダに実行されるので，「飛行 
中」のすベての命令に関し，プログラムでの順序を記 
憶しておかなければならない.その論理を最小化する 
ために，命令はグループ化されている.そして，その 
グループ単位で順序を管理される.つまり，プロセッ 
サの状態は，グループ内の命令の切れ目ではなく，グ 


ループの切れ目で変化するのである.例外が発生した 
場合は，直前のグループの状態が保持される. 

一つのグループは， I 0 P と呼ばれる内部形式の命令 
を最大5命令含む.デコードステージにおいて，命令 
は順序通りにグループに入れられる.もっとも古い命 
令がスロット0に置かれ，次に古い命令がスロット1 
に置かれる.同様にスロット2，スロット3が埋めら 
れる.スロット4が分岐命令用に予約されているが分 
岐命令が存在しない場合は， NOP 命令がスロット4 
に入れられる.各サイクルで1グループのみをデイス 
パッチすることができる.つまり，グループ内のすべ 
ての命令が同時にデイスパッチされる.ここで，デイ 
スパッチとは，命令のグループを発行 キュ ー（リザ 
ベーシヨンステーシヨン）に移動することを意味する. 
グループはプログラムの順序でデイスパッチされる. 
各 IOP は発行キューから実行ユニットに対し，アウ 
トオブオーダに発行される.その実行結果は，グルー 
プ内のすベての命令が完了したときに，コミット（リ 
タイア）される.各サイクルでは一つのグループのみ 
が完了できる. 

正確な処理を行うために，ある種の命令は投機的に 
実行してはならない.それを保証するために，その種 
の命令は完了する最後の命令になるまで実行されな 
い.この機構は，完了逐次化 （completion serializa - 
tion ) と呼ばれる.実装を簡単にするために，その種 
の命令は一つだけで命令グループを形成する.完了逐 
次化の例として，ガードされた(順番を保証する）空間 
へのロード/ストア 命令， プロセッサの 状態を変更す 
る マシン 状態 レジスタ への移動命令などの コンテキス 
卜の同期命令がある. 

多くの場合，内部命令はアーキテクチャで見た命令 
と同じである.しかし，命令は一つ以上の内部命令に 
置き換えられる場合がある.高い動作周波数を達成す 
るために，1命令でのレジスタアクセスは，リードは 
最大2個，ライトは最大1個に制限されている （3 入力 
を必要とする積和命令などの浮動小数点命令の場合， 
性能を出すためにこの規則に従わない場合もある） • 
たとえば ， load with update 命令 （1 個のレジスタを 
リードした後にインデックスレジスタを増加させる） 
は，ロード命令と加算命令に分割される.同様に，複 
数の データに アクセスする命令は，複数のロード命令 
に分割される. 

グループ 分けは 二つのクラスに 分類できる . load 
with update 命令のように 二つの 命令に分割される場 
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表 2 Power 4 の発行キュー 


タイプ 

エントリ数 

キューの数 

固定小数点./口ー ド/ストア 

9 

4 

浮動小数点 

5 

4 

分岐実行 

12 

1 

CR 論理 

5 

2 


合は，その操作はクラックされた（割られた）と呼ばれ 
る•もし，命令が3命令以上の IOP に分割されるなら， 
それらは粉砕された ( millicoded ) 命令と呼ばれる.ク 
ラックされた命令は，他の命令と同様にグループの中 
に入れられる.ただし，二つの IOP は同じグループ 
になるという制限がある.もし，二つの命令が，その 
時点のグループに入りきらないなら，そのグループは 
終了され，新しいグループから開始される.クラック 
された命令に続く命令は，グループに余裕があれば， 
同じグループに入れることができる.粉砕された命令 
は，常に新しいグループから開始される.条件レジス 
夕を操作する論理命令は発生頻度が小さいので，この 
機能のためには一つの実行ユニットしか用意されてい 
ない.また，グループの中ではスロット〇とスロット 
1へ固定的に入れられる. 

• グループのディスパッチと命令発行 1 
命令のグループは，1回に一つのみ，発行キューに 
デイスパッチされる.グループがデイスパッチされる 
と，そのグループに対応する制御情報がグループ完了 
テーブル （GCT : Group Completion Table ) に格納さ 
れる. GCT は最大20グループを格納できる. GCT の 
エントリにはグループ内にある最初の命令のアドレス 
が格納されている.命令が実行を終えるとき，その情 
報は GCT の対応するグループのエントリに登録され 
る.終了情報は，グループがリタイアするまで（すべ 
ての命令の実行結果がコミットされるか，システムに 
よつてフラッシュされるまで） GCT に保持される.グ 
ループの各命令スロットは，浮動小数点演算ユニット， 
分岐実行ユニット，条件レジスタ （ CR ) 実行ユニット， 
ロー ド/ストアユニットが独立に持つ発行キューに送 
られる. 表2 に発行キューの深さと個数をまとめた. 
浮動小数点演算キューと固定小数点（整数)，ロード/ 
ストアユニットの共通な発行キューに対し，スロット 
0とスロット3に保持されている命令を転送できる. 
一方，スロット1と2は他の実行ユニットに転送され 
る. CR 実行ユニットへはスロット〇と1から転送さ 
れる. 
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表3 Power 4 のリネーム資源 


資源のタイプ 

論理サイズ 
(本数） 

物理サイズ 
(本数） 

GPR 

32(36) 

80 

FPR 

32 

72 

CR 

8(9) 

32 

リンク/カウントレジスタ 

2 

16 

FPSCR 

1 

20 

XER 

4領域 

24 


グループがデイスパッチされるためには，そのグ 
ループで使用されるすべての資源が有効になっていな 
ければならない.そうでなければ，必要な資源が空く 
まで待たされる.デイスパッチを行うためには，次の 
資源が有効であることが必要である. 

1) GCT エントリ 

各グループに 一つの GCT エントリが割り当てられ 
る.対応するグループがリタイアするときに解放さ 
れる. 

2) 発行キューのスロット 

グループ内の各命令に対する発行キューのスロット 
が有効でなければならない.命令が実行ュニットに発 
行されたら解放される. 

3) リネームレジスタ 

各レジスタはグルーブ内の命令によってリネームさ 
れセットされる.対応するリネーミング資源が有効で 
なければならない（表 3). リネーミング資源は，同じ 
論理資源に書き込む次の命令がコミットしたときに解 
放される. 

4) ロー ドリ オーダキュー (LRQ : Load Reorder 
Queue ) のエントリ 

LRQ のエントリはグループのすべての ロー ド命令 
に対して有効になっていなければならない.このエン 
トリは，グループが完了するときに解放される . LRQ 
は32エントリからなる. 

5) ストアリ オーダキュー （SRQ : Store Reorder 
Queue ) のエントリ 

SRQ のエントリはグループのすべてのストア命令 
に対して有効になっていなければならない.このエン 
トリは，グループが完了した後，ストアの結果が L 2 
キャッシュに転送されたときに解放される. SRQ は 
32エントリからなる. 

上述のように，ある種の命令は完了逐次化が要求さ 
れる.完全逐次化が必要なグループは，すべての先行 
するグループが完了するまで発行されない.さらに， 
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分岐方向 アウトオフオーダ処理 



リネームされていないレジスタをリードする命令は， 
そのレジスタへのライトが終了するまで実行してはい 
けない.実装を簡単にするために，リネームされてい 
ないレジスタにライトする命令の実行が終わるまで， 
そのレジスタをリードする命令のディスパッチが禁止 
される.リネームされていないレジスタへのライトは 
プログラム の順序で実行されることが保証されている. 

命令がグループ単位で処理されていくため，グルー 
プ内のある命令が割り込みを受ける場合は，そのグ 
ループの命令と実行結果を無効化し， 一つの 命令から 
なるグループにして再ディスパッチする. 

•命令実行パイプライン 

図 22に Power 4 の命令実行パイプラインを示す. 
IF , IC , BP が，それぞれ，命令フェッチ，命令キャ 
ッシュ，分岐予測のサイクルに対応する. DO から GD 
サイクルは，命令 デコ ードとグループ化したサイクル 
である. MP はマップを行うサイクルである.これは， 
依存性を調べて資源の割り当てを行い，グループを対 
応する発行キューにディスパッチすることである. 
ISS サイクル中に， IOP (内部命令）が各実行ユニット 
に発行される. RF はレジスタをリードするサイクル， 
EX は実行を行うサイクル， WB は実行結果をレジス 
夕にライトバックするサイクルである.この時点で， 
命令の実行は終了するが，完了はしない.少なくとも， 
さらに2サイクルの間は完了できない.これは Xfer 
と CP サイクルがあるためである.ここで，先行する 
すべてのグループが完了したことと，同じグループの 
すべての命令が終了したかどうかを調べる. 


命令キャッシュから フェッチ された命令は， D 1 サ 
イクルにおいて命令 キューの 中で待ち合わせを行う. 
これは，命令は1サイクルに最大8命令を フェッチ さ 
れるので，命令供給がグループ化よりも高速であるた 
めである.同様に，命令は MP サイクルの前でも待ち 
合わせを行う.発行 キューへ グループを デイ ス パッチ 
するための資源の待ち合わせがあるためである.さら 
に， ISS サイクルの直前でも，命令は発行キューの中 
で待ち合わせを行う.また， CP サイクルの前でも命 
令の完了を待ち合わせる. 

図示してはいないが， CR 論理実行ユニット（条件レ 
ジスタに対する論理演算を受け持つ）は固定小数点(整 
数）パイプラインと同じである.固定小数点パイプラ 
インは，図22中では FX で示されている. 

分岐実行ユニットのパイプラインは BP である.も 
し，分岐命令の予測が失敗した場合，少なくとも12 
サイクルのペナルテイが生じる. 

二つのロー ド/スト アユニ ットに対するパイプライ 
ンは同一で，図22中では LD / ST で示されている•レ 
ジスタファイルにアクセスした後は，ロード/ストア 
命令は EA サイクルで実効アドレスを生成する.ロー 
ド命令において， DERAT ， データ キャッシュデイ レ 
クトリ，データ キャッシュへの アクセスは，すべて 
DC サイクルで行われる.もし， DERAT ミスが発生 
するなら，ロード命令は拒絶される.つまり，発行キ 
ュ ーの中に留まる.その間に ， TLB への 要求が発行 
され， DERAT がアドレス変換情報でリフイルされる. 
拒絶された命令は，最初に発行時よりも最小7サイク 
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ル後に再発行される.それでも DERAT が変換情報を 
保持していない場合は，再び命令が拒絶される.この 
拒絶-再開処理は， DERAT がリフィルされるまで続 
けられる. TLB ミスが発生した場合，変換は投機的 
に行われる.しかし， TLB に変換情報が格納される 
のは，アドレス変換が失敗した命令を含むグループの 
実行が完了する直前である. 

ロー ドの場合，ディレクトリが L 1 データキャッシ 
ュが目的のキャッシュラインを含んでいることを示す 
ならば，得られたデータの中から要求されたバイトを 
取り出し， Fmt サイクルで位置合わせを行い，指定 
されたレジスタにライトバックする. 

ストア命令の場合は，ライトデータは，データキャ 
ッシュではなくて上述の SDQ にライトされる.スト 
ア命令を含むグループが完了したとき，ライトデータ 
はデータキャッシュへライトされる.もしも L 1 デー 
タキャッシュの目的のキャッシュラインが有効なデー 
夕を含む場合は， L 1 データキャッシュが更新される. 
また， L 1 データキャッシュにラインが存在しないな 
ら，そのラインが L 2 キャッシュからリフィルされる 
ことはない.どちらの場合も，データは L 2 キャッシ 
ュにライトされる.要するに，ライトアロケートなし 
のライトスルー構造である. 

二つの固定小数点(整数)実行ユニットのパイプライ 
ンは， 図22 中では， FX で示されている.二つの固定 
小数命令が互いに依存性を持つ場合，連続したサイク 
ルでは発行できない.この場合は，二つの発行サイク 
ルの間に無効サイクルが最低1サイクル必要である. 
しかし，このサイクルで別の命令を発行することはで 
きる. 

二つの浮動小数点実行ユニットのパイプラインは 
FP で示されている.浮動小数点命令の実行には6サ 
イクル必要 ( F 1 〜 F 6) である.しかし，命令実行は完 
全にパイプライン化されている.つまり，各サイクル 
で連続的に2命令を FP に発行可能なのである.しか 
し，浮動小数点命令に依存性がある場合，命令実行の 
6サイクルの間に別の命令を発行することはできない. 
しかし，片方のパイプラインは独立して動作できる. 

7 7 Pentium 

# u パイプ / v パイプの スーパースカラ 構造 

Pentium (P5) のパイプラインは， i 486 と同様の5ス 
テージから構成される. MMX Pentium ではフェッチ 


ステージが1段追加されて6ステージになる.イメー 
ジ的にはそのパイプラインが2本並列に動作するイン 
オーダ スーパースカラ構造である. 二つの 汎用整数パ 
イブラインに加えて，パイプライン化された FPU 演 
算を同時に実行できる. 

これら二つの整数パイプラインは， U パイプおよび 
V パイプと呼ばれる. U パイプはすべての命令を実行 
できる.一方， V パイプでは単純な命令のみを実行で 
きる.同時発行可能な2命令をデコードしたとき， 
(プログラムの順番で）先行する命令は U パイプで， 
後続する命令は V パイプで実行される.イメージ的 
には， U パイプが常に動作していて，後続命令が同時 
実行可能な場合のみ V パイプも使用するといったとこ 
ろであろう力、. 

図23に Pentium のブロック図を示す.なお，五つ 
のパイプライン ステージの 内訳は，次のようになって 
いる（図 24). 

1) PF :プリフェッチ 

2) F :フェッチ （MMX Pentium のみ） 

3) D 1 :命令デコード 

4) D 2 :アドレス生成 

5) EX :実行 ( ALU 演算とキャッシュアクセス） 

6) WB :ライトバック 

• 各 ステージ について 

PF ステージでは命令キャッシュまたはメモリから 
命令がプリフェッチ（先取り）される. Pentium では， 
従来の i 486 などとは異なり，キャッシュが命令キャ 
ッシュと デ ータキャッシュに分かれているので，プリ 
フェッチが データ 参照と競合しない. PF ステージで 
は，二つの独立なラインサイズ （16 バイト x 2) の組み 
合わせのプリフェッチバッファが分岐 ター ゲットバッ 
ファ （ BTB ) と結合されて動作する.条件分岐命令に 
行き当たるまでプリフェッチは逐次的に進む.条件分 
岐命令がプリフェッチされると BTB で分岐予測が行 
われ，片方のプリフェッチバッファは分岐先のプリフ 
ェッチに使われる.これにより，分岐予測によるプリ 
フェッチと同時に本来のプリフェッチを続行できる. 
MMX Pentium では四つの16バイトのプリフェッチ 
バッファで最大四つの独立した命令の流れをプリフェ 
ッチ可能らしい.本当なのかと疑ってしまうが，これ 
はユーザーズマニュアルからの受け売りである. 

F ステージは MMX Pentium のみに存在する.この 
ステージでは命令の長さをデコードする.これは従来 
D 1 ステージで行われていた処理である.プリフイク 
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図 23 Pentium のブロック図 


スのデコードも F ステージで 行われて いる. 

さらに ， MMX Pentium では， F ステージと D 1 ス 
テージの間に命令キュー ( FIFO ) が存在する . FIFO 
が空のときは，命令は遅延なしで D 1 ステージに渡さ 
れる. FIF 〇は4命令分用意されており，各サイクル 
で2命令を格納可能である. FIFO からは2組の命令 
が引き出されて D 1 ステージに渡される. FIFO は通 
常命令で満たされているので，常に2命令を取り出す 
ことが可能で，1サイクルで実行される平均命令数は 
2に限りなく近づく. FIFO がうまく機能している限 
りは，命令フェッチと FIFO からの命令の切り出しで 
ストールは生じない. 

D 1 ステージでは連続する2命令を同時にデコード 
し発行する.同時に発行できる命令の組は次のような 
関係にあるものである. 

a ) ハードワイヤード化された単純な命令 

b ) レジスタの依存性がない 

c ) デイスプレースメント付きとイミデイエートの組 
でない 

d ) プリフイクスでない 


なお， F ステージをもたない Pentium ではプリフイ 
クスがある時だけ D 1 ステージを繰り返す.また，プ 
リフイクスは，他の命令と組になることはなく， U パ 
イプのみで実行される.すべてのプリフイクスが発行 
されると，ベースとなる命令（プリフィクスが付加さ 
れていた命令）は次の命令と同時発行が可能になる場 
合もある. 

D 2 ステージではメモリオペランドのアドレスを計 
算する.また，レジスタオペランドをリードする. 
i 486 では，デイスプレースメントとイミデイエート 
を同時に含む命令，または，ベースとインデクスを 
持つ命令はもう1回 D 2 ステージが必要だったが， 
Pentium では不要になった. 

EX ステージは ALU 演算とデータキャッシュ への 
アクセスを行う. ALU 演算とデータキャッシュアク 
セスの両方の処理が必要な場合，このステージではさ 
らに1クロックが必要となる. EX ステージでは分岐 
予測の正当性の検証も行う.ただし， V パイブの条件 
分岐の検証は WB ステージで行われる.また，マイク 
ロコードで実行される複雑な命令は U パイプと V パ 
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第 3 章並列処理の基本とスーパースカラ 


命令 命令の 命令の レジスタリード命令実行 ライトバック 

プリフェッチ 切り出し デコード アドレス計算 



1クロック実行の 
場合，ここで終了 


図24 Pentium のバイプライン 


イプの両方を使う. 

WB ではプロセッサの状態を更新して実行を完了 
する. 

U パイプと V パイプで実行される命令は，同時に 
Dl ， D 2 ステージに入り，同時に抜けていく.当然， 
EX ステージにも同時に入る.もし，片方のパイプが 
ストールすれば他方のパイプもストールする.両方の 
パイプの命令が W B ステージに達するまで，新たな命 
令は EX ステージに入って来られない.こうして，イ 
ンオーダ完了を実現している. 



• 複雑なスーパーパイプライン構造 

Pentium I (P6) のパイプラインは複雑である.動 
作周波数を上げるためにスーパーパイプライン構造を 
採り， IPC を上げるためにアウトオブオーダのスーパ 
ースカラ構造を採っている.14ステージのパイプラ 
インは次の三つのセクションに分割できる.そして， 
これらのセクションは独立して動作する（図 25). 

a ) インオーダな前処理 (8 ステージ） 

b ) アウトオブオーダ実行 (3 ステージ） 

c ) インオーダなリタイア （3 ステージ） 

パイプラインのステージ数は，機能分割の方法によ 

り12ステージ，または10ステージという説もある. 
ここでは ， Pentium II が発表された当時の一般的な解 
説記事にしたがおう. Intel の公式資料ではステージ 


数は明記されていなかったと記憶している.マニュア 
ルにある図のステージ数を数えると13ステージのよ 
うにも思えるが，実行ステージを抜いて12ステージ 
という解釈が有力であった.なお， Pentium 4 の発表 
に当たり ， Pentium II のパイブラインステージ数は公 
式に10ということになった. 

Pentium は（かなり制限のある）2命令同時発行の 
MPU だったが ， Pentium II では3命令同時発行にな 
った.単にパイプラインの本数を増やしただけでなく， 
Pentium II は x 86 命令を"〇 P という RISC 風の固定長 
命令に変換し，効率的にパイプラインを処理した. 
x 86 命令の欠点 （?） として，エンコード（命令コードの 
ビット並び）に規則性がないこと，レジスタ-メモリ間 
演算，可変長命令などが挙げられるが，従来はこれら 
の特徴が効率的なスーパースカラ処理の妨げとなって 
いた. // OP を導入することで命令のデコードが容易 
になり， RISC 並みのパイプライン効率を得ることが 
できる. 

図 26に Pentium II の機能ブロックを示す.この図 
を基に命令処理の過程を説明しよう. 

# X 86 命令の変換 

x 86 命令から" OP への変換は，パイプラインの最 
初の8ステージで行われる.まず，分岐ターゲットバ 
ッファ （ BTB ) が指し示す位置の64バイト（キャッシュ 
2ライン分）のコードを命令キャッシュから読み込む. 
その中で，最初にある x 86 命令の先頭から16バイト 
のコードを取り出して，並列動作する三つのデコーダ 
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図25 Pentium I のパイプライン 
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に渡す. x 86 アーキテクチャは可変長命令を採用し， 
プリフィクスを付加することで(理論上)無限長の命令 
を生成することができる. 

Pentium II は，1命令の長さを平均5バイトと仮定 
しているのであろう.もっとも，16バイトのコード 
のうち，この時点で命令の切れ目は不明なので，三つ 
の命令デコーダは16バイトすべてを受け取ると推測 
される. Pentium 系の MPU では，命令が16バイト境 
界にまたがる場合は命令の実行効率が落ちるといわれ 
ているが，それはここに原因があると思われる. 

さて ， Pentium II の命令キャッシュは1ラインが32 
バイトなので，その中の任意の位置から始まる16バ 
イトのコードを得るために，二つのラインが同時に読 
み込まれる.そして，これら3種の命令デコーダが 
x 86 命令を RISC 命令によく似た" 0 P に変換する.三 
つのデコーダのうち，二つが単純デコーダ，残りが複 
雑デコーダである.単純デコーダは 一っの x 86 命令を 
一つの" 0 P に変換し，複雑デコーダは一つの x 86 命 
令を一つから四つの// 0 P に変換する.とくに複雑な 
命令は複雑デコーダでもデコードできず，そこを通過 
してマイ クロ コード命令シーケンサ ( MIS ) に渡される. 
MIS は必要なだけの/ /0 P を生成する. 

たまたま複雑な命令が単純デコーダに割り当てられ 
る場合は，そこから複雑デコーダまたは MIS に渡さ 
れる.ここでのデコードの遅れはリザべーシヨンス 


テーシヨンで吸収されるので，命令の実行には影響 
しない. 

単純な命令と複雑な命令のデコーダへの割り当てが 
完璧な場合は，1サイクルごとに六つの“ 0 P を生成 
する.平均すると1サイクルごとに三つの" 0 P が生 
成されている.これを根拠に， Intel は Pentium II を 
「3ウェイスーパースカラ」と呼んでいる. 

• レジスタリネーム 

バ〇 P に変換された x 86 命令は，パイプラインの第7 
ステージでレジスタエイリアステーブル 〔Register 
Alias Table :レジスタ読み替え表 ( RAT )〕 に送られ 
てレジスタリネームが行われる.ここで偽の依存性 
( WAW ハザードなど）を解消する. 

x 86 アーキテクチャは汎用レジスタ（論理レジスタ） 
が8本しかないので，レジスタの依存関係が生じやす 
い.それを軽減させるため ， Pentium II では40本の 
物理レジスタをもつ.つまり ， Pentium II は内部的に 
40本の汎用レジスタをもっていることになる. 

レジスタリネームでは，真の依存性 （ RAW ハザー 
ドなど）は解消できない.しかし ， Pentium II ではレ 
ジスタのフォワーディングを行うので，そのペナルテ 
ィを軽減できる. 

• アウトオブ オーダ 実行 

レジスタリネームが完了すると，プログラムの順序 
通り， " OP はリオーダバッファ （ ROB ) に送られると 
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第 3 章並列処理の基本と スーパースカラ 



図26 Pentium I のブロック図 


同時にリザべ ーショ ン ステーショ ンに キュー イング 
(待ち行列に入れる）される.これは，デコーダと実行 
ステージの 中間に位置する.リザべ ーションステーシ 
ョンは最大20個の" 0 P を蓄えることができ，11個の 
実行 ユニットに 対して，1サイクルで最大五つの が OP 
を発行できる(入カポートが五つあるため）.もっとも， 
典型的な x 86 の命令列では1サイクルに発行できる 
" OP はたかだか3命令といわれている. 

リザべ ーションステーションは，ソース オペランド 
が使用可能になったか，実行ユニットが空いたか，依 
存性が解消できたかなどを調べて，用意ができた“ 
OP をアウトオブオーダに発行する.アウトオブオー 
ダにコンプリートする / iOP の結果は，一時的なバッ 
ファ （ ROB や MOB ) に格納され， ROB の状態を參照 
しながらプログラムの順序に従ってレジスタやメモリ 
に書き込まれる. 

ROB は40エントリからなる254ビット幅のバッフ 
ァである. 254ビットの内訳は，二つのオペランド， 
実行結果，多くの状態ビットである. ROB には整数 
と浮動小数点の# OP の両方が格納される. ROB や 
MOB から取り出す処理はパイプラインのリタイアの 


ステージで 行われる. 

• リタイア 

ROB は実行状態と各// OP の結果を保持する."〇 P 
は，先行する/ iOP がすべてコンプリートしたことが 
わかって初めてリタイアし，結果をレジスタやメモリ 
に書き込む.この動作を「コミット」ともいう. 
Pentium II では1サイクルに最大三つの/ / OP をリタ 
イアできる.これは，デコーダが1サイクルに発行で 
きる平均的な“ OP の個数 (3 命令）と釣り合いが取れ 
ている. 

オペランドのフォワーディングのために， それぞれ 
の 実行 ユニッ トの 結果はすべてリザべ ーシヨンステー 
シヨンに 戻される.実行 ユニットの 結果は ROB にも 
戻されて，リ タイアの 準備が できたか 否かを決定する. 

レジスタに対する結果は ROB に書き込まれるが， 
メモリ に対する結果は メモリオーダ バッファ （ MOB ) 
に書き込まれ，対応する// OP がリタイアするまで一 
時的に格納される. メモリ ライトを生じる“ OP がリ 
タイアして初めて MOB は メモリ にデータを書き込む. 
• 分岐予測は必須 

Pentium II はパイプラインのステ ー ジ数が多いの 
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で，分岐予測は必須である.分岐予測を誤った場合の 
ペナルテイは 4〜15サイクルである.これはかなりの 
性能低下になるので，高度な分岐予測が要求される. 

Pentium ( P 5) と同様 ， Pentium II は分岐ターゲット 
バッファ ( BTB ) を採用する.予測方式は分岐履歴ビッ 
卜による.一つの分岐先アドレスに対して，過去4回 
分の履歴を記録しておき，それに従って予測する•こ 
れは基本的に Pentium と同じで，4回のループならほ 
ぼ100%の分岐予測が可能だという. BTB にヒット 
しない分岐命令はオフセットの正負などから静的な分 
岐予測を行う. Intel の主張によると，分岐予測の正確 
さは， Pentium が80%だったのに対して Pentium II 
は90%だという.逆にいえば，分岐予測を誤る確率 
は20%から10%へと半分になったということである 
(数字のマジック？）. 

Pentium II で採用している分岐予測の方式は2レべ 
ル適応履歴アルゴリズムというものだが，詳細は明ら 
かにされていない.ただし，命令キャッシュのライン 
ごとに四つの分岐先アドレスを BTB で予測すること 
が公表されている. 

ちなみに，先に示した NetNews で報告された Dhry 
stone ベンチマークの計測結果では， BTB のミス率は 
33%だという.分岐予測自体の正確さは98 %という 
から （ BTB ) にヒットする限り，分岐予測はうまく働 
いているようである.ただし， Dhrystone のような単 
純なプログラムで BTB に67%しかヒットしないとい 
うのは納得がいかない. BTB は512エントリなので， 
1回目のループですべての分岐命令は BTB 内に取り 
込まれ，後は98%の確率で分岐予測が成功するとい 
うシナリオを誰でも思い浮かべるはずである.多分， 
BTB の処理アルゴリズムに欠陥があるのかもしれない. 
• 投機実行 

Pentium II も，分岐予測を有効に活用するために投 
機実行を行う . Pentium II では，分岐予測が失敗した 
場合の回復処理は，投機的に実行された命令に対する 


ret 命令の分岐先を予測するのは難しい . Pentium D 
ではリターンスタックと呼ばれる機構で RET 命令の 
分岐先を予測する.これは CALL 命令の デコー ド時に 
戻りアドレスを格納するスタックである. RET 命令を 
デコード するとリターンスタックにあるアドレスから 
分岐先を取り出して，そのアドレスを予測したアドレ 
スとして命令フェッチする.物理的なスタックの内容 
は他の命令で変更されるおそれがあるので，リターン 
スタックのアドレスはあくまでも予測値でしかないこ 
とに留意すること.なお，これはスタックキャッシュ 
として昔から知られている手法でもある. 

すでに説明した R 10000 もそうであるが，命令のデ 
コードを容易にするために，命令をプリデコードした 
結果を命令キャッシュに格納するという手法が今後の 
流行になるかもしれない.そう言えば Transmeta の 
Crusoe も， x 86 命令を VLIW 命令に変換して DRAM 
上にマッピングされた命令キャッシュ （?） に格納して 
いる. AMD は K 6 ですでにプリデコードしてある命 
令長情報をキャッシュに入れる構造になっていた. 

• Pentium DI は Pentium n と同じ 

Pentium II の後継には Pentium DI がある.どちらも 
P 6 アーキテクチャを実装するので，パイブラインの 
構造などには違いはない . Pentium IE は Pentium II の 
動作周波数の向上のほか， SSE という SIMD 命令の追 
加と PSN(Processor Serial Number ) の採用を特徴と 
する. PSN はプライバシ保護の観点から非難を浴び， 
その後継の Pentium 4 では削除された. 

Pentium4 

•八イパーパイプライン 

Intel の開発した Pentium 4( コード名 Willamette ) は， 
Pentium DI に続く製品として2000年に登場した . 2 
GHz 以上の動作周波数を目指し，従来の倍のパイプ 
ライン ステージを 採用したため，同一動作周波数では 


赵 


ROB の エントリ を無効化する こ とで実現している. 
Pentium II では他の多くの MPU と同様に，一つ以上 
の分岐の方向を予測し実行していくという，多重レべ 
ルの投機実行を許している.ただし， ROB が一気に 
無効化されるため，分岐予測失敗時のペナルティは非 
常に大きい. 


Pentium m よりも性能が劣る.このような状況は，アー 
キテク チャの変更時には多々 ある ことであり， 避けて 
通れない道でもある.しかし，何だかんだいいながら 
も，現在の IA -32 プロセツサの主流は Pentium 4 である. 

Pentium 4 のマイクロアーキテクチャは ， 「Net 
Burst 」 と呼ばれる.ここでは， NetBurst のパイプラ 


Pentium II ではサブルーチンに対する CALL/RET の 
組を高速に実行する機構をもっている.サブルーチン 
はプログラムのさまざまな場所から呼ばれるため， 


インの概要について述べる.図27に Pentium 4 のブロ 
ック図を示す. Pentium 4 のバイプラインは次の三つ 
の部分から構成されている.これは ， Pentium II のパ 
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図 27 Penitum 4 のブロック図 



イプラインと同じである. 

►インオーダな発行を行うフロントエンド 
►アウトオブオーダなスーパースカラ実行コア 
►インオーダなリタイアユニット 

フロントエンドはプログラム 順の命令を アウ トオブ 
オーダな実行 コアに 供給する.つまり， IA-32 命令を 
フェッチし，デコードし，マイクロ操作 （ //0P ) に変 
換する. フロントエンドの 主要な仕事は， "0P の連 
続的な流れを本来の プログラム の実行順序で実行 コア 
に供給することである. 

実行コアは1クロックに複数の" 0 P を発行し，そ 
の# 0 P の入力の準備ができ，実行に必要なハードウ 
ェア資源が利用可能なものから， "0 P の順序を入れ 
替えて実行する. 

リタイア部は// 0 P の実行結果が本来のプログラム 
の順序に従って処理されることを保証し，必要なアー 
キテクチヤ上の状態を更新する. 


•パイプライン ステージ 数 

Pentium4 の発表にともない， Intel から NetBurst の 
パイプラインが公表された（図 28). Intel の公式見解 
では， Pentium のパイプラインは 5 ステージ， Pentium 
II のパイプラインは 10 ステージ， NetBurst は 20 ステ 
ージということになったようだ. 20というステージ 
数は従来のスーパーパイプラインを超えるという意味 
で「ハイパーパイプライン」と呼ばれている.各ステ 
ージの具体的な動作に関しては公式な説明がない.ス 
テージの名称から推測するしかないが，けっこう複雑 
なことをやっているような気がする. 

パイプラインのステージ数が増えた理由は，動作周 
波数を向上させるためである. Pentium が 233MHz 動 
作， Pentium II が 1GHz 程度の動作であるのに対し， 
NetBurst では 1.4GHz 動作を初めとして 3GHz 以上の 
動作を達成できるといわれている. 

ただし， Pentium4 は分岐予測機能を強化して深い 
パイプラインステージ数に起因する分岐命令の予測ミ 


Prefetch Decode Decode ヒ xecute Wrtback 

(a) P5 のパイプライン 



(c) NetBurst のパイプライン 

図 28 Pentium 4 のバイプライン 
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ス時の ペナ ルテイを軽減したにもかかわらず，同一動 
作周波数の Pentium m と比較すると性能が劣るとい 
うのは周知の事実である.パイプラインのステージ数 
の増加が性能に与える影響はかなり大きいことがわか 
る.それにもかかわらずステージ数の増加に至ったの 
は ， Pentium HI のクリテイカル パス （回路のスピード 
ネックとなる箇所)潰しが限界にきていることを意味す 
る.つまり ， Pentium HI (および Pentium II ) アーキテ 
クチャでは 2 GHz 以上の動作周波数が達成できないと 
いうことである.この意味から Pentium 4( NetBurst ) 
は動作周波数が 2 GHz を超えて初めてその存在価値が 
でてくるわけである. 

ところで， NetBurst の IPC が低いということは， 
パイプラインがスカスカであることを意味する.これ 
は HyperThreading を実現するためという意見もある 
が，真偽は不明である. 

• 二つの部分からなるフロントエンド 

フロントエンドは，二つの 部分からなる.それは， 
•フェッチ/デコードユニット 

• 実行トレースキャッシュ 

である.また，フロントエンドは次の基本機能を実行 
する. 

•実行すると予想される IA -32 命令をプリ フェッチ する 
•プリ フェッチされていない 命令を フェ ッチする 
•命令をデコードしパ〇 P に変換する 
•複雑な命令と特殊用途のコードに対しマイクロコー 
ドを生成する 

• デコー ド済みの命令を実行ト レース キャッシュから 
供給する 

•高度なアルゴリズムを用いて分岐予測を行う 
さらに フロントエンドは， 高速なパイプライン処理 
に関する一般的な問題のいくつかに注目している.た 
とえば，次の二つの問題に起因する遅延がある. 

•分岐先からフヱッチする命令の デコ ード時間 
•キャッシュラインの中間に位置する分岐や分岐先に 
起因する デコ ー ドの 負荷 

実行トレースキャッシュは，デコードした IA -32 命 
令を格納することで，これら二つの問題を解決できる 
ように設計されている.命令は変換エンジンによって 
フェッチされデコードされる.変換エンジンはデコー 
ドされた命令を用いて，トレースと呼ばれる一塊の 
"〇 P に変換し，実行トレースキャッシュに格納する. 
実行トレースキャッシュは，これらの "0 P をプログ 
ラムの実行順序にしたがって格納する.そこでは， 


コード中に出現する条件分岐の結果(分岐先または分 
岐元の命令）は予測されて同一のトレースキャッシュ 
のラインに格納される.これにより，分岐によって実 
行されない命令を格納しないため，キャッシュ容量の 
効率的な利用が可能になる.あるいは，実行トレース 
キャッシュは分岐命令をある程度削減しているので， 
分岐によるペナルティをあらかじめ低減する意味もあ 
ると思われる. 

実行トレースキャッシュは，実行コアに1クロック 
に最大三つの" 0 P を供給できる.この実行トレース 
キャッシュと変換エンジンは連動する分岐予測ハード 
ウェアと連動している.分岐先はそのリニアアドレス 
に基づいて予測され，できるだけ早くフェッチされる. 
分岐先は，もし実行トレースキャッシュにキャッシュ 
されているなら，そこからフェッチされる.もしキャ 
ッシュされてない場合は，外のメモリ階層 （ L 2 キャッ 
シュなど）からフェッチされる.変換エンジンの分岐 
予測は実行されると予想される経路にしたがってトレ 
ースを形成する. 

• 実行 トレースキャッシュの 構造 

さて， Intel が出願している米国特許6,014,742にし 
たがって，実行トレースキャッシュの構造を推測して 
みる.トレースキャッシュは 図29 のような構成をし 
ている.ある程度の数の命令 UOP ) を実行順に（予測 
して）並び替えたものがトレースである. 

トレースを形成するとき，分岐予測にしたがって動 
的に実行される命令の流れを追っていくが，それは無 
限に継続するのではなく，ある程度進んだ時点で中断 
する.単純には分岐から分岐までを一つのトレースと 
して形成すればいいのだが，前記の公開特許ではトレ 
ース内に条件分岐命令が含まれることを想定してい 
る. 

トレースを実際にどの時点で中断するのかはよくわ 
からない.実行トレースキャッシュはこのトレースを 
キャッシュしたものであり，各トレースは 3" OP (公 
開特許では6 " OP ) からなるトレースラインから構成 
されている.実行コアには現在のトレースの中から卜 
レースラインの内容を順次実行コアに送っている. 

実行トレースキャッシュには TBTB (Trace Branch 
Target Buffer ) と呼ばれる独立した分岐予測機構がつ 
ながり，実行コアに与えるトレースラインごとに分岐 
予測を行い，トレースラインの供給を継続するか中断 
するかを決定する.この分岐予測は，トレース形成時 
の分岐予測とは独立していて，二つの予測が一致する 
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分岐予測 
情報0 


分岐予測 
情報1 


分岐予測 
情報2 


分岐予測 
情報⑺ 


図 29 Pentium 4 のトレースキャッシュの構成 

ときのみトレースラインの供給を継続する.二つの予 
測が異なる場合は，キャッシュされているトレースに 
新たな分岐先があるか否かを探し，トレースキャッシ 
ュ内にあれば（要はトレースキャッシュにヒットすれ 
ば），該当するトレースラインを遅延なしで実行コア 
に供給する. 

実行コアから見れば，分岐予測が非常に正確に行わ 
れており，正しい経路の命令が供給されているように 
見える.新たな分岐先が実行トレースキャッシュにな 
ければ（トレースキャ ッシュ ミス），トレース単位で不 
要なものと入れ替えが行われる.命令がループになっ 
ている場合は同じトレースに何度もヒットすると考え 
られる. 

だいたいこのような感じであるが，以上は公開特許 
からの筆者の想像なので，現実の実装と異なっていて 
もご容赦を願いたい. 

1トレースラインに3 “0 P が含まれるということ 
は，12,000命令を格納するというトレースキャッシュ 
は4,000ラインから構成されることになる.この卜 
レースラインをいくつか寄せ集めたものがトレースで 
ある.なお，トレースキャッシュの容量は，バ〇 P が 
12,000命令ということであるから， x 86 命令に変換す 
れば 16 K バイト相当といわれている. 

ところで，実行トレースキャッシュの発想は， 
Transmeta の VLIW プロセッサである Crusoe の卜 
レースキャッシュとよく似ている.命令を実行するコ 
アはスーパースカラと VLIW という違いがあるもの 
の， x 86 命令を実行コアが都合のいい別の形態にプリ 
デコードしてキャッシュするというものである.プリ 
デコード時に分岐命令の挙動を予測し，プログラムの 


TBTB (トレース分岐 
夕ーゲツトバッファ） 


順序ではなく，実行する順序に並び替えてキャッシュ 
するところもそっくりである.この並び替え操作を 
Pentium 4 はハードウエアで実現するが， Crusoe は 
CMS (Code Morphing Software ) で実現する. 

•アウトオブオーダ実行コア 

命令をアウトオブオーダに実行するコアの機能は並 
列性を可能にする主要な要素である.この機能は，一 
つの" OP がデータや関連する資源を待つ間に待ち合 
わせが必要なら， プログラムの 順序では後に現われる 
他の" 0 P を先行して処理させるように，命令の並び 
替えを可能にする. 

プロセッサは" OP の流れを スムーズに するための 
いくつかのバッファを備えている.これは，プロセッ 
サのパイプラインの1力所が遅延しても，並行に実行 
している他の操作や（コアでの効果），先立ってバッフ 
ァにキューイングされている// OP の実行（フロントエ 
ンドでの効果）によって，その遅延が埋め合わされる 
ことを意味している. 

実行コアは並行実行が可能なように設計されてい 
る.四つの発行ポートを通じて，1クロックに最大六 
つのパ OP をディスパッチ可能である.発行ポートを 
図 30 に示す.1クロックに6命令のが 0 P の発行する 
ことは，トレースキャッシュやリタイア ユニッ トの処 
理能力を超えていることに注意したい.これにより， 
ピークの処理能力を 3“ OP より大きくし，異なる発 
行ポート への" OP の発行に柔軟性を持たせることで 
より高い発行の割合を実現している. 

ほとんどの実行 ユニット は各サイクルで新しい" 
OP の実行を開始できる.このため，同時に複数の命 
令がそれぞれのパイプラインで処理状態になる.算術 


トレースキヤッシュ 
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図 31 Pentium M のループ検出の論理 


論理演算ユニット （ ALU 0/ ALU 1) を用いる多くの命令 
は1クロックに2命令を開始できる（倍速で動作する）. 
また，浮動小数点演算命令の多くは2クロックに1命 
令の割合で開始できる. "0 P は，その入カデータの 
用意ができて資源が利用可能になれば，直ちにアウト 
オブオーダに実行を開始できる. 

• リタイア 

リタイア部は，実行された// 0 P の結果を実行コア 
から受け取り，その結果を本来のプログラム順序にし 
たがってアーキテクチャ上の状態を正常に更新する. 
IA -32 命令の結果は，リタイアする前に，意味的に正 
しい実行のために，本来のプログラムの順序でコミッ 
卜されなければならない.例外は命令がリタイアする 
ときに発生する.例外は投機的には発生せず，正しい 
順序で発生し，プロセッサは例外処理後に正しい位置 
から再開される. 一つの// 0 P がコンプリートし， 結 
果をデステイネーシヨンにライトするとリタイアであ 
る.1クロックに 最大三つの/ /0 P をリタイアできる. 

リオーダバッファ （ RQB ) は，コンプリートした 
" QP を格納し，アーキテクチャ上の状態をインオー 


• X 86 最新アーキテクチャ 

Pentium M ( Banias ) に関する情報はほとんど公開さ 
れていないが，2003年5月21日発行の Intel Technology 
Journal の Vol .7 Issue 2 の 3 番目の記事に Pentium M 
のマイクロアーキテクチャの解説がある.これを読ん 
でも，マイクロアーキテクチャに不明な点は多い（パ 
イプラインなど）が ， Advanced Branch Prediction 
(進んだ分岐予測）， //0 P フュージョン ， Dedicated 
Stack Engine (専用スタックエンジン）についての解説 
がある.これらについて簡単に解説しておく. 

• Advanced Branch Prediction 

Pentium M のマイクロアーキテクチャは Pentium 
m に基づいているというのが定説だが，分岐予測に関 
しては Pentium 4 の技術を採用しているらしい.特殊 
な プログラムの 流れを追うた め， IP (Instruction 
Pointer = Program Counter ) に基づいて分岐先の成立 
/不成立を予測する通常の分岐予測機構のほかに，ル 
ープ 検出器 （Loop Detector ) と間接分岐予測器 
(Indirect Branch Predictor ) を備える. 

ループ検出器はループ動作を検出し，その分岐先を 
予測する.ループは一定の回数同じ方向に分岐し，1 
回だけ逆方向に分岐する.このため，ループ回数が判 
明していればループ操作を完全に予測できる （図 31 )• 
ループが検出されると分岐予測機構の中に1組のカウ 
ンタを割り当てて回数を計数していくが，ループ回数 
をどのように決定するのかは明らかにされていない. 


昕し，例外の順序を管理するユニットである. 
ァ部は，分岐を追跡し，分岐先の情報を分岐 
ットバッファ （ BTB ) に送り，分岐の履歴を更 
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図30 Pentium 4 の実行ユニットとアウトオブオーダコアのポー 
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間接分岐予測器は，プログラムの流れによってデー 
夕依存のある間接分岐を解消する.間接分岐は，オブ 
ジェクト指向コード （ C ++ や Java ) で多用されるが， 
その分岐予測が誤れば分岐予測性能の低下につな 
がる. 

ほとんどの間接分岐は，実行時には同一の分岐先に 
分岐する傾向がある.しかし， Java のバイトコード 
のインタプリタや C ++ の CASE 文はデータに依存し 
て複数の分岐先をもつ. 

間接分岐器は， IP で参照する分岐ターゲットキャ 
ッシュと，大域履歴 (Global History ) でインデックス 
する分岐ターゲットキャッシュをもつ. IP での予測 
が成功した場合はその分岐先を使用し， IP での予測 
が外れた場合は大域履歴の分岐先を使用する （図 31). 

大域履歴は， IP に基づいた予測の付随物であり， 
IP での予測が外れると大域履歴に登録する.つまり， 
過去何回かの間接分岐の分岐先を記憶しておき，もっ 
とも確率の高い分岐先を選択する. 

Pentium M の分岐予測は前の世代の設計 (Pentium 
n アーキテクチャ）よりも，予測を外す確率が20%低 
下しており，実際の性能は7%向上しているという. 
この向上率の約30%はループ検出器と間接分岐予測 
器の組み合わせが寄与しているだろう. 

• A / OP フュージョン 

x 86 プロセッサでは， IA -32 の命令（マクロ命令）を 
が 0 P と呼ばれる RISC 命令に変換して， RISC エンジ 
ンで実行することがなかば常識である.しかし，一つ 
のマクロ命令は複数の" 0 P に分解されるので，リネ 
ームやリタイアの バン ド幅やリオーダ バッファ やリザ 
ベーションステーションの容量といったハードウエア 
資源の不足を招く.そしてこれが能低下に結び付く. 
それを解消するための手段が// 〇 P フュー ジョンで 
ある. 

基本アイデアは，複雑な操作 （3 個以上のオペラン 
ドが必要な操作）を行うマクロ命令も一つのパ 0 PP と 
してデコードして割り当て，リネーム，リオーダバッ 
ファやリザべーションステーションへの登録を行うと 
いうことである.これがフュージョン（融合）というこ 
とらしい.融合というよりは，分解しないといったほ 
うが正確である. 

従来の" 0 P は2個のオペランドしかもてなかった 
ので， 3個以上のオペランドが必要なマクロ命令は2 
個以上の" OP に分解していた.融合された/ iOP をサ 
ポートするために ， Pentium M では，リザべーシヨ 


IP (命令ポインタ) 


大域履歴 











分岐先 

型 

ヒット 








分岐先 

ヒット 



ヒット 分岐先 


図32 Pentium M の間接分岐予測器の論理 


ン ステーシヨ ンの各 エントリ は最大3個の ソース オペ 
ランドを収容できるようになった.また，マクロ命令 
と " OP の対応が1対1になるので，命令 デコーダ も， 
複雑 デコーダ だけでなく，単純 デコーダ だけですベて 
の命令 デコー ドが可能になるという. 

リザべ ーシ ョンステ ーショ ンに格納された/ iOP 命 
令は，実行ユニットへのディスパッチ時に本来の2才 
ペランドの複数の" OP に変換される.そして，分解 
された従来と互換性のある; t/OP が実行ユニットで 
アウトオブオーダに実行される.一つの融合された 
"0 P を構成する複数の“ 0 P (従来形式)がすべて完了 
すると，その融合された“〇 P がリタイアする（図 32). 

上述の論文では，"〇 P フュージョンの例として， 
ストア操作とリードモデイファイ ( load - and - op , リー 
ドした値と演算する）操作が挙げられている.これら 
のマクロ命令は，ディスパッチ時に2個のが〇 P (従来 
形式）に変換される.ストア操作は「ストアアドレス 
操作」と「ストアデータ操作」に分解される.リード 
モディファイ操作は「ロード操作」と「演算操作」に 
分解される.なお，マクロ命令が2個の" 0 P に分解 
される場合は稀であるとされている. 

融合されたストア命令を形成する2個の" 0 P は並 
列に発行できる.メモリへの実際のライトはストア命 
令がリタイアされたときに行われるので，それまでに 
ストアデータ バッファ に対してアドレスとデータが供 
給されていればいい.ストアアドレス操作はアドレス 
生成 ユニットへ デ ィス パッチされ，その ソース オペラ 
ンド（ベースやインデックスレジスタ）が用意されたと 
きに実行される.ストアデータ操作はストアデータ バ 
ッファユニットに デ イス パッチされ，その ソース オペ 
ランド（ストアするデータ）が用意されたときに実行さ 
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図 33 Pentium M の pOP フュージヨンの領域 



図35 Pentium M の融合されたリードモディファイの流れ 


れる.これらの実行は独立して行われ，融合されたス 
トア命令のリタイアは，両方の操作が完了した時に発 
生する（図 33). 

融合されたリードモディファイ命令を形成する2個 
の# 0 P は，アドレス依存があるため，逐次的に適切 
な実行ユニットに発行される.ロード操作のディスパ 
ッ チは，その ソース オペランド （ベース やインデクス 
レジスタ）が用意できたときに実行される.演算操作 
は，ロードが完了し，もう一方のオペランドの用意が 
できたときに実行される.融合されたリードモディフ 
ァイ命令のリタイアは，両方の操作が完了したときに 
発生する（図 34). 

上述の論文にはとくに明記されていないが， x 86 の 
特徴であるリードモディファイライト命令はリードモ 
ディファイ操作とストア操作の組み合わせなので， 1 
個の融合された mOP としてリザべーシヨンステーシ 



図34 Pentium M の融合されたストアの流れ 


ョンに登録され，ディスパッチ時に，3個または4個 
の/ iOP に分解されるのであろう（メモリのアドレスが 
同一なのでアドレス計算が1回省略できる） • 

インテルによると，融合されたパ 0 P 構造はアウト 
オブオーダロジックで処理される" 0 P の数を10%以 
上減少させることが判明している. "0 P の数が減少 
するため，発行，リネーム，リタイアのスループット 
が増加し，結果的に性能を増加させる.とくに，命令 
デコードに監視/複雑デコーダが不要になるため，プ 
ロセッサのデコード，割り当て，リタイアのバンド幅 
を3倍に拡大するとしている. 

// OP フュージョンによる性能向上は，典型的な例 
では整数コードで5%，浮動小数点コードでは9%で 
ある•ストア操作の融合は，とくに整数コードの性能 
向上に寄与する.浮動小数点コードの性能向上は，ス 
トア操作とリードモディファイ操作（図 35) の両方の 
形式が寄与するという. 

• Dedicated Stack Engine 
IA 32 は CISC 命令であり， push , pop , call , 
RET などスタック操作を多用する.これらの命令はス 
タックポインタ ( ESP ) の値をアドレスとして使用する • 
このため， データの 移動とは別にスタック計算用の 
"〇 P が余分に発行され， " OP の命令数が増加する. 
また， ESP が更新されないと次の PUSH や POP が実仃 
できないという依存性も発生する.従来は複数のスタ 
ック操作命令を同時にデコードしようとしても ， ESP 
の値が確定していないため，それが不可能だつた. 
Pentium M では，命令 デコーダの 近くに専用回路を 
設けることで，非常に効率的に ESP のこれらの副作 
用を扱えるようになっている. 
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第 3 章並列処理の基本とスーパースカラ 


図36 Pentium M の専用スタック 
エンジンの論理 



その 基本原理は，プログラマに見える esp ( espp ) 
は，アウトオブオーダ実行 エンジンの 中にある ESP 
レジスタ （ ESPO ) に 差分 （ ESPD ) を加えたも ので ある. 
つまり， 

ESPP = ESPO + ESPD 

であり， ESPD は命令 デコーダで 管理できる.つまり， 
前の命令での ESP の変化量は土 4であることが多い 
( PUSHA ， POPA は例外）.命令 デコード 時に ESPD か 
らの変化量を計算し， ESPP の値を推定することで複 
数命令の同時 デコー ドを可能にするものである （図 
36). この場合， ESPD の更新は専用の加算器で行う. 

この操作は， ESP をデスティネーションオペランド 
とする命令には効果がない.この場合は， ESPP を計 
算する " OP ( ESPO と ESPD を加算）を余分に追加して 
ESPO が更新されるのを待つ.その後は ESPD を0とみ 
なしてデコードしてよい.もともと ESPD が0の場合 
は，このような同期化処理は不要である. 

また， Pentium M は投機実行を行うので，分岐予 
測が外れた場合は ESPO や ESPD の値をある時点まで 
巻き戻さなければならない. ESPO はアウトオブオー 
ダ実行エンジンのレジスタの一部なので自動的に回復 
される. ESPD に関しては，その値を保持する テープ 
ルを用意して対応する. 

Dedicated Stack Engine を搭載することで， ESP を 
同期化する/ iOP を挿入したとしても， //0 P の数が 
5%減少するという.それよりも，命令デコードのバ 
ンド幅が向上したことが性能に大きく寄与するらし 
い.また，消費電力も5%程度の削減になるという. 


Hammer のパイプライン 


• Quanti Speed アーキテクチャを採用 
Athlon は， AMD が P 6 (Pentium n ) への対抗とし 





図37 Hammer の構成 


て開発した 32 ビット MPU である.そして， Hammer 
は Athlon の後継にあたる 64 ビット MPU である. 
マイクロアーキテクチャの基本構造は， Hammer と 
Athlon ではよく似ている.だが， Hammer では， I/O 
やマルチプロセッサ接続を行う HyperTransport を 3 
ポートと North Bridge (DDR SDRAM コントローラ， 
AHC など）を内蔵している点が異なる. 

図 37 に Hammer の構成を示す.キャッシュと CPU 
コアが分離され，いろいろな構成（高級版や廉価版な 
ど）に対応できるようになっている. Hammer アーキ 
テクチャを採用する MPU として， Opteron ブランド 
の SledgeHammer (サーバ， EWS 向け）と Athlon 64 ブ 
ランドの CrawHammer(PC 向け）が発表されている. 
これらにどのような相違があるのかは不明である.し 
かし， L 2 キャッシュの容量， DRAM コントローラや 
HyperTransport のバス幅/ポート数の違いによって 
区別されるのだろうと予想されている. 

Hammer のブロック図を 図38 に示す.この図で L 1 
キャッシュ， L 2 キャッシュ， TLB , 分岐予測機構， 
North Bridge 以外の部分がプロセッサ コアで ある. 
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なお， APIC(Advanced Priority Interrupt Controller ) 
とシステム要求キュー （SRQ : System Request 
Queue ) は二つの CPU を扱える構成となっている.頭 
初の発表によると Hammer はシングル CPU コアとな 
っていたが，実際には2，4， 8 CPU の CMP(Chip 
Multi Processor ) 構成が可能である. 

ところで， Hammer は Athlon と同様に ， Quanti 
Speed アーキテクチャを採用する.つまり， 

• 9 命令同時発行，スーパースカラ，パイプライン化 
されたマイクロアーキテクチャ 

•複数の並列 x 86 命令デコーダ 

•パイプライン化された三つのスーパースカラ浮動小 
数点 ュニット ( FPU ) 

❿パイプライン化された三つのスーパースカラ整数演 
算ュニット ( ALU ) 

•パイプライン化された三つのスーパースカラアドレ 
ス生成ユニット ( AGU ) 

• 72 エントリの命令制御ユニット 

•ハー ドウ ェアに よる データの プリ フェッチ 
( Hammer のブロック図にはない） 

•排他的，投機的に入れ替えを行う TLB 
•動的な分岐予測 

により， IPC を向上させている.同じく QuantiSpeed 
アーキテクチャを採用する Athlon (図 39) と，基本的 


には変わらない.しかし，整数演算系のスケジューラ 
(リザべー シヨン ステー シヨ ン） が 18エントリから24 
エントリに増加している. Athlon のスケジューラの 
実態は， 3 X 6 エントリに分割されているという.そ 
の意味で， Hammer では ALU と AGU のペアごとに2 
エントリの増加になっている. 

しかし， Athlon と Hammer の大きな違いは命令の 
フェッチ系にある.要するに，分岐予測機能の高度化 
とマルチプロセッサで高性能をねらっている（動作周 
波数の向上は当然）のだ.命令デコーダ自体に大きな 
変更はないようである. 

• 強化された命令 デコーダ 

QuantiSpeed アーキテクチャは命令デコーダが強化 
されているのが特徴の 一つで ある.正確にいえば，ド 
キュメントによっては，命令デコーダは QuantiSpeed 
の特徴には入っていない.しかし， Athlon で強化さ 
れた命令デコーダは Hammer でもそのまま受け継が 
れているようなので，ここでは QuantiSpeed に含めて 
おく. 

Intel の P 6 (Pentium n/Pentium 冚） アーキテクチャ 
まで，デコーダは対称的ではなかった （ NetBurst では 
命令ト レース キャッシュを使用するので事情が異な 
る）.しかし， QuantiSpeed では対称的なデコーダを 
備える.これは，命令をデコードする効率に係わる. 
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図39 Athlon のブロック図 


P 6 と QuantiSpeed は，どちらも，複数の命令を一 
度に デコードす るために，複数の命令 デコーダを 用意 
している. P 6 では 二つの 単純 デコーダと一つの 複雑 
デコーダで 役割を分担している.一方 ， QuantiSpeed 
では，同じ機能の命令 デコーダ （ある程度複雑な命令 
をデコードできる）が3組対称に並べられている. 

命令の分類としては，単純な命令，ある程度複雑な 
命令，非常に複雑な命令に分類できる.命令の整列が 
うまくいっており，それらが単純な命令であれば，1 
クロックで3命令をデコードできるのは同等である. 
しかし，複雑な命令が混じる場合は事情が異なる. 

P 6 では，単純 デコーダで 処理できない命令は複雑 
デコーダに 渡される.複雑 デコーダ でも デコードで き 
ない命令は マイクロコード 命令 シーケンサでデコード 
される.命令 デコードはインオーダに 行われるので， 
複雑な命令が混じる場合は，1クロック間で，1命令 
あるいは2命令ず つし か デコードで きず， スルー プッ 


卜が低下する.それゆえ， P 6 では，レジスタ-レジス 
夕間演算といった単純な命令を使用しないと性能が出 
ないといわれている.それに対し Athlon では，1世代 
前の Pentium や K 6 アーキテ;^チヤに最適化したコー 
ドでも，それなりの性能が出るとされている. 

QuantiSpeed では，単純な命令とある程度複雑な命 
令を処理する直接径路 (Direct Path ) と，複雑な命令 
を処理するべクタ径路 (Vector Path ) に分かれて並列 
にデコードを行う.これは， Athlon では SCAN ス 
テ ージ， Hammer では ピッ ク ステージ で 選択 される. 

直接径路では x 86 命令をデコードして，1クロック 
間に三つの MacroOP を出力する.この MacroOP は， 
後のアーリデコードあるいはパックステージで結合さ 
れ， RISC ライクな " OP に変換される.ベクタ径路で 
はマイクロコード RQM がアクセスされ，1クロック 
間に最大3命令の MacroOP を出力する.これらが専 
用 デコーダで " OP に変換される. 


第3章並列処理の基本と スーパースカラ 
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►予測したフェッチ 
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図 40 Hammer の分岐予測 


上述のように， QuantiSpeed の命令デコーダでは， 
見かけ上は直接径路とべクタ径路の違いをなくしてい 
る.これは，複雑な命令が混じっていても命令デ 
コードの スルー プットが低下しないことを意味する. 

• 分岐予測 

投機実行が当たり前になっている最近の MPU で 
は，性能向上のために分岐予測機能はとくに重要であ 
る. Athlon と Hammer の分岐予測機構は， Athlon に 
分岐ターゲットアドレス計算器がない点を除けば，分 
岐予測テーブルのエントリ数の違いはあるものの基本 
的には同じである.ここでは， Hammer の分岐予測 
について説明する. 

Hammer の分岐予測は，図40に示すように3種類 
のテーブル（キャッシュ）とターゲットアドレス計算器 
から構成される. 

• 大域履歴カウンタ (Global History Counter ) 

分岐の方向(分岐/不分岐）を記憶. 

2ビット x 8 K エントリ （ Athlon の4倍） 

• 分岐ターゲットアドレス配列 (Branch Target 
Address Array ) 

2 K エントリ （ Athlon と同じ？） 

•リターンアドレススタック 
(RAS : Return Address Stack ) 


12エントリ ( Athlon と同じ） 

•分岐ターゲットアドレス計算器 （BTAC : Branch 

Target Address Calculator ) 

1 個 （ Athlon にはない） 

フェッチした命令が分岐命令であるか否かは ， LI 
キャッシュ格納時にプリデコードされて格納されてい 
る分岐選択情報 (Branch Selector ) によって判別され 
る.そして，分岐命令をフヱッチすると大域履歴カウ 
ンタ （ GHC ) と分岐ターゲットアドレス配列 ( BTAA ) 
を参照し，前者から分岐方向を，後者から分岐先アド 
レスを得る.分岐先アドレスが判明すれば，そこから 
投機的に実行を始める. 

なお，分岐選択情報は L 2 キャッシュにも存在する. 
これは L 1 キャッシュから L 2 キャッシュへ追い出す場 
合に， L 1 キャッシュの情報を ECC 領域に書き込むよ 
うだ.さすがに， L 2 キャッシュへのリフイル時にプ 
リデコードを行うには回路が複雑になり過ぎた. 

ただ，命令キャッシュで L 1 キャッシュから L 2 キャ 
ッシュへの追い出しが存在するのかという疑問もある 
が，2001年の Microprocessor Forum では，そのよつ 
に解説されていたらしい.図40においても ， Evicted 
Data (立ち退かされたデータ）という表現がある.と 
いうことは， L 1 キャッシュと L 2 キヤッシュは排他的 
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ステージ 

分類 

詳細 

説明 

1 


フェッチ 1 

命令を L1 キャッシュよりフェッチ 

2 


フェッチ 2 


3 


ピック 

命令の整列 

4 

フェッチ 

デコード 1 

x86 命令をデコード 

5 


デコード 2 

中間コードに変換？ 

6 


パック 

個々の命令をパック 

7 


パック/デコード 

命令を A/0P に変換 

8 


ディスパッチ 

A/0P をスケジューラ発行 

9 


スケジュール 

スケジューラに格納 

10 

実行 

AGU/ALU 

命令実行/アドレス生成 

11 


データキャッシュ1 

データキャッシュアクセス 

12 


データキャッシュ 2 


13 


L2 リクエスト 


14 


L2 タグへのアドレス 

Address to North Bridge 

15 


L2 タグ 

Clock Boundary 

16 

L2 

L2 タグ. L2 データ 

SRQ Load 

17 

キャッシュ 

L2 データ 

GART/AddrMap CAM 

18 


L2 からのデータ 

GART/AddrMap RAM 

19 


データキャッシュへの MUX 

Cross Bar 

20 


L1 へライト.データ供給 

Coherence/Order Check 

21 


MCT Schedule 

22 


DRAM Cmd Q Load 

23 


DRAM Page Status Check 

24 


DRAM Cmd Q Schedule 

25 

DRAM 


Request to DRAM Pins 

26 


DRAM Access 

27 


Pins to MCT 

28 


Through North Bridge 

29 


Clock Boundary 

30 


Across CPU 

31 


ECC and MUX 

32 


Write Data Cache 


図41 Hammer のパイプライン 


(Exclusive Cahce ) になっていて，最新の情報を L 1 キ 
ャッシュに置くように， L 1 キャッシュと L 2 キャッシ 
ュで適宜エントリの置き換えが行われていることにな 
る.これは， L 1 キャッシュのほうが L 2 キャッシュよ 
り短時間でアクセスできるためであろう.たしかに 
Hammer のブロック図（図 38) では L 1 命令キャッシュ 
と L 2 キャッシュの径路は双方向になっている.この 
あたりは AMD からの詳細な資料を待ちたい. 

GHC は BTAA より多くのエントリを持つので，分 
岐命令の処理に次のような場合が考えられる. 

• GHC にヒット， BTAA にヒット 
1クロックのペナルテイ 

• GHC にヒット， BTAA にミス— BTAC を利用して 
分岐アドレスを計算 

4クロックのペナルテイ (BTAC の時間は2クロック） 

• GHC にミス—分岐するか否かはパイプラインの実 
行ステージまで不明 

11クロックのペナルテイ（実行ステージまでの時間 
は9クロック） 

ここでいうペナルテイとは，逐次的な命令フェッチと 


比べて分岐先をフェッチするまでに要するむだな時間 
のことである.これに1クロック加算したものが分岐 
命令の実行クロックといえる. Hammer では BTAC 
を追加したことにより， Athlon に比べると GHC ミス 
時のペナルティを大幅に減少させている. 
•パイプライン 

Hammer のパイプラインを図41に， Athlon のパ 
イプラインを図42に示す. AMD の説明によると， 
Hammer のパイプラインは整数演算が12ステージ， 
浮動小数点演算が17ステージだという.図41は整数 
パイプラインで，浮動小数点パイプラインは明らかに 
されていない. Hammer では， Athlon では1ステー 
ジだった L 1 キヤッシュアクセスが2ステージに分割 
されているのが特徴的である.デコードも2ステージ 
かけて余裕をもたせている.明らかに，高い動作周波 
数をねらった設計である.それなのに，2ステージし 
か違わないというのは，1クロックに処理する論理を 
見直したためであろう. 

Hammer のパイプラインで，パックステージを謎 
のステージとする説もあるが， MacroOP (中間コード） 
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ステージ 

整数演算 

共通処理 

FPU 演算 

説明(整数演算のみ） 

Direct Path 

Vector Path 

1 


FETCH 


L1 命令キャッシュか 6 命令をフエッチ 

2 

SCAN 

命令の Direct Path/Vector Path 選択 

3 

ALIGN 1 

MECTL 

命令キューへ格納/マイク OROM アドレス 

4 

ALIGN2 

MEROM 

命令の整列/マイク OROM フエッチ 

5 

Early DEC 

MESEQ 

アーリーデコード/マイクロコードデコード 

6 

IDEC/Rename 


"OP に変換し，レジスタリネーム 

7 

SCHED 



STKREN 

命令スケジュール 

8 

EXEC 



REGREN 

命令実行 

9 

ADDGEN 



SCHEDW 

アドレス生成 

10 

DCACC 



SCHEDW 

データキャッシュへアクセス 

11 




FREG 


12 




FEXEC1 


13 




FEXEC2 


14 




FEXEC3 


15 




FEXEC4 



図 42 Athlon のパイプライン 


の結合は Athlon でも行われていたので，筆者はそれ 
ほど重要な意味はないと考える.あるいは ， NetBurst 
( Pentium 4) の命令トレースキャッシュや Crusoe の 
CMS (Code Morphing Software ) のように，そこでス 
ケジューリング（並び替えや最適化）を行ってから， 
"0 P に変換しているのではと想像することはできる. 

Hammer のパイプラインにおいて， L 2 キャッシュ 
にアクセスする場合はさらに8ステージ必要である. 
なお， Hammer では L 2 キャッシュへのアクセスと 
DRAM アクセスをオーバーラップできる.これは， 
L 2 キャッシュミス時のリフィルを高速に実行できる 
効果がある. DRAM へのアクセス自体は L 2 キャッシ 
ュのヒット/ミスを待たずに始まるようである. 



Alpha アーキテクチャは最初 DEC が開発し，その 
後 Compaq に吸収された.そして Intel に譲渡される 
ことによって事実上消滅した. Alpha という MPU は， 
あと1〜2製品開発されるらしいが，既に過去のもの 
となってしまった. 2002年4月に Compaq は21364 
( EV 7) を搭載するサーバ 「 Marvelous 」 を発表した. 
ISSCC では EV 79( EV 8 とも ) の発表もあったが，事実上， 
21364が最後の Alpha チップとなった. 

しかし世界最高速の MPU としてギネスブックにも 
掲載された Alpha チップに言及しないのはどうも物足 
りない.ここでは，2001年時点での最新 MPU である 
Alpha 21264について触れよう. 


• Alpha のブロック図 

図43 に Aplha 21264のブロック図を示す. BOX と 
いう呼称は DEC の伝統らしい.ここでは触れないが， 
Strong ARM [のブロック図でも IB 0 X とか EB 0 X とい 
う表現が散見される. 

•命令フェッチ，発行，リタイアユニット （ IB 0 X ) 

• 整数演算およびアドレスユニット （ EB 0 X ) 

• 浮動小数点演算ユニット ( FBOX ) 

•内蔵キャッシュ 

(命令キャッシュとデータキャッシュ） 

•外部キャッシュおよびシステムインタフェースユニ 

ット （ CBOX ) 

• メモリ 参照 ユニット （ MBOX ) 

Alpha 21264のパイプラインのタイミングを 図44 に 
示す.この図を基にパイプラインの動作を説明する. 

•ステージ0:分岐予測とライン予測を使用した命 
令フェッチ 

プログラムの順序で命令キャッシュから最大4命令 
がフェッチされる.同時に，分岐予測テーブルと分岐 
履歴アルゴリズムを使用した分岐予測が行われる. 
Alpha には分岐予測機構とは別にライン予測機能があ 
る.命令キャッシュの中にライン予測領域があり，こ 
の領域の情報にしたがって次にフヱッチするキャッシ 
ュラインを選択する. 

フェッチ予測器の目的は，分岐予測が TAKEN と 
判断されるときに生じるパイプラインバブル（分岐先 
をフェッチするまでのむだ時間）を削除するためであ 
る.つまり，予測が当たれば，分岐先の命令をペナル 
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図 43 Aplha 21264のブロック図 



図44 Alpha 21 264のパイプライン 
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ティなしでフェッチできる.分岐予測とライン予測が 
異なった結果を返す場合は，分岐予測が優先される. 
ただし，条件分岐以外のコール命令とジヤンプ命令で 
は，ライン予測の方が優先される. 

_ステージ1:命令ス□ットを形成し命令をリネー 
ム(マップ)ハードウェアに転送 
このステージでは 命令キヤ ッシュ から フェッチした 
4命令を組み合わせ，一つの命令 スロット にして， リ 
ネームハードウェアに転送する.ここで，命令が使用 
するハードウェア資源に基づいて，それぞれがどの演 
算器で実行されるかを決定する.これは，利用する資 
源を振り分けることでュニッ ト 間の負荷を低減する意 
味がある.演算器は上位と下位に分かれており， この 
時点で命令を振り分けてしまう.命令には，上位のみ 
で実行可能 ( U )， 下位のみで実行可能 ( L )， 両方で実 
行可能 （ E ) の3種類がある. E に分類される命令はス 
ロット 形成時に U か L に決定される. 

• ステージ2 :レジスタリネーム(マップ） 

この ステージでは命令 スロッ ト内の各命令に対して 
レジスタリネームを行う.また，各命令は一意な8ビ 
ットの数値 ( inum と呼ばれる）が割り当てられ，その 
数値によって マップから リタイアまで（これが飛行中） 
の命令と プログラムの 順序を識別する.つまり， 
inum はプ ログラムでの 命令の順序を表す. マップ さ 
れた命令とそれに対応する inum は， マップ ステージ 
の終わりで整数または浮動小数点の命令キューに入れ 
られる. 

• ステージ3 :命令キューから命令を発行 

20ェントリの命令キュー （ IQ ) は1サイクルに4命令 
を発行する.15ェントリの浮動小数点キュー （ FQ ) は 
1サイクルに2命令の割合で，浮動小数点演算命令， 
条件分岐命令，ストア命令を発行する.このことから， 
レジスタリネーム論理とパイプラインの終端の間で最 
大80命令が「飛行中」になる. 

•ステージ4 :レジスタリード 
命令キューから発行された命令は，オペランドデー 


夕を整数または浮動小数点レジスタファイルからリー 
ドし，バイパス（フォワーディング）されたデータを受 
け取る. 

• ステージ 5 :整数演算と浮動小数点演算の実行 

EBOX と FBOX のパイプラインが実行を開始する- 
つまり， 前のステージでレジスタファイルからリード 
(またはバイパス）されたデータを処理する. 

_ステージ 6: データキャッシュ アクセスあるいは 
演算結果の格納 

ほとんどの整数演算命令はこのステージでレジスタ 
に結果を書き込む.浮動小数点命令は，パイプライン 
的に処理され，所定のサイクルを経てレジスタにライ 
卜する（スループットは1サイクル）. 

メモリ参照命令はデータキャッシュとデータ転送バ 
ッファにアクセスする.通常，ロード命令はタグ部と 
データ部にアクセスするが，ストア命令はタグ部のみ 
にアクセスする.ストアするデータはストアキューに 
書き込まれ，ストア命令がリタイアするまで保持され 
る.これは投機実行中のストアの結果をライトさせな 
いようにするためである.ロー ドは読み捨てればいい 
が，ストアでキャッシュやメモリを変更したら取り返 
しがつかない. 

まとめ 

以上，実際のプロセッサのスーパースカラ構造につ 
いて解説してきた. 

たとえば， SH -4 のパイプラインに関しては資料が 
ほとんど存在しない.しかし， x 86 系に関しては資料 
は豊富である.そういう意味では， SH -4 は筆者の想 
像， x 86 系は既存の資料の受け売りが多いことは否定 
しない.多少の誤りはご容赦願いたい. 

文章の量はかなり多くなったが，内容的にはそれほ 
ど難しいことは述べていない.最近の MPU はアウト 
オブオーダなスーパースカラが常識のようになってき 
ているので，スーパースカラの基礎をおさえておくこ 
とは必須であろう. 
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キャッシュ構造の違いから， 680x0/i486/R 4000の 
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一口にキヤッシユとい っても， フルアソシアティブ/ダイレクト マッ フ72ウェイ セッ トアソシアティブなどのラ 
イン選択方式，ライトスルー/ライトバックの書き込み制御方式， LRU / FIFO / ランダム方式といったリプレースメ 
ント方式など，キャッシュの構造や動作でさまざまな違いがある.ここでは，それぞれのキャッシュ方式の違い 
を詳しく解説する. 


その昔，フォン•ノイマンがプログラム内蔵方式， 
つまりプログラムもデータと同じようにメモリ中に格 
納する方式を提唱して以来，その方式は現在のコンビ 
ュータアーキテクチャの基本理念となっている（フォ 
ン-ノイマンがプログラム内蔵方式の提唱者というの 
は正確には誤りだが，ここでは通例にしたがってお 
く）. Pentium にしろ PowerPC にしろ，現在でもこの 
方式から脱却してはいない.当然のことながら，ほと 
んどすべての MPU は，プログラムを実行するときに 
はメモリへアクセスしなければならない.そして，そ 
のメモリへのアクセス時間がプログラムの実行性能に 
も影響を与えてしまう.これが「フォン•ノイマン. 
ボトルネック」と呼ばれる現象である. MPU の性能 
向上のためのキーポイントの一つはフォン•ノイマ 
ン-ボトルネックの削減にあるといっても過言では 
ない. 

• キャッシュメモリとは？ 

フォン•ノイマン.ボトルネックを削減するための 
手っ取り早い方法は，高速な（アクセス時間の短い）メ 
モリを使用することである.世の中にはいろいろな種 
類のメモリ（記憶装置）があり，アクセス時間に応じて 
図1のようなメモリ階層を形成している.高速なメモ 
リは高価であるため，大容量で使用することは難しい. 
そこで，キャッシュメモリという構造が用いられる. 

キャッシュ （ cache ) とは「隠し場所，貯蔵所」とい 
う意味で，キャッシュメモリとは原則としてプログラ 
ムで意識する必要のない高速な隠しメモリのことであ 
る.具体的には図2のように，小容量で高速なキヤッ 


シュメモリと，大容量で低速なメモリを階層構造に組 
み合わせる. 

動作としては，低速メモリ（大容量）の内容の一部を 
キャッシュメモリ（小容量）にコピーしておき ， MPU 
は，通常はキャッシュメモリのみをアクセスする.ア 
クセスすべき内容がキャッシュメモリにない場合は， 
低速メモリの内容をキャッシュメモリへコピーし直 
し，そこをアクセスする.このときは低速なメモリか 
らのコピーが発生するので多少時間がかかるが，2度 


MPU 内部 



高速小容量高価格 


低速大容量低価格 


図1メモリの階層 
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キヤッシュにない 
場合のアクセス 



通常の 

アクセス 


図2キャッシュメモリの構造（概念図) 


た.ところが，現在主流の RISC ではキャッシュの存 
在が前提で，メモリへのアクセスは，とりあえずキャ 
ッシュヒットするものと仮定してアーキテクチャが決 
定されている. LSI 製造技術の進歩には目を見張るも 
のがある. 

なお，本章では MPU に内蔵されているキャッシュ， 
とくに1次キャッシュを念頭において解説している 
が，解説そのものはキャッシュについての一般論で 
ある. 


目以降はキャッシュだけにアクセスするので高速とな 
る.たとえばプログラムがループ処理をする場合や， 
同じ変数を何度も読み書きするような場合，キャッシ 
ュへコ ピーされた命令や データ にアクセスすることに 
なるので，プログラムが高速に実行されるというわけ 
だ.これは，プログラムのメモリアクセスには局所性 
があるという経験則が基本原理となっている. 

キャッシュメモリは単に「キャッシュ」と呼ばれる 
ことが多い.本章でも，以下ではキャッシュと表記す 
る.また，低速メモリからキャッシュへコピーのし直 
しはリフィル，またはリプレースと呼ばれる. 

•昔は外付け SRAM で，現在は MPU 内蔵で 

現在では MPU にキャッシュが内蔵されることは珍 
しくない.しかし， LSI の集積密度がそれほど高くな 
かった10年くらい昔は， SRAM を使用して MPU の外 
部にキャッシュを構成していた.とはいえ ， SRAM 
自体が非常に高価だったため，本当に性能の必要な大 
型計算機などでしかキャッシュは採用されていなかっ 


7キャッシュの内部構成 

• キャッシュの構成 

キャッシュは，高速，（比較的)小容量である点を除 
けば通常のメモリと変わりはない.アドレスを与える 
と対応するデータが出力される.ただし，低速なメモ 
リ（メインメモリ）の一部をコピーしたものなので，対 
応するアドレスのデータが格納されていないことがあ 
る.これをキャッシュミス（あるいはミスヒット）とい 
う.このキャッシュミスを検出するため，特殊な構造 
を採用している.具体的には，タグ部とデータ部と呼 
ばれるメモリの組（これをラインまたはエントリと呼 
ぶ）の集合がキャッシュである（図 3). 各アドレスに 
対して特定のラインが選択され，そのラインのタグ部 
の内容が与えられたアドレスに一致すればヒットであ 
り，そのラインのデータ部の内容が与えられたアドレ 
スの内容である（有効）ことがわかる. 

逆に，タグ部の内容が与えられたアドレスに一致し 


図3キャッシュの内部構成 
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図4フルアソシアティブ方式 


なければミスであり，データ部の内容は与えられたア 
ドレスのものではない（無効）.現実にはタグ部の中に 
は，ラインの内容が有効なものであるか否かを表す 
「バリッドビット」も含まれている.バリッドビット 
が無効を示していれば，アドレスとタグが一致しても 
ミスとみなされる. 

また，データ部の容量はまちまちである.昔は，1 
ワード （4 バイト）の場合が多かったが，現在では4ワ 
ード （16 バイト）や8ワード （32 バイト）が主流である. 
一般に1ラインのデータ部の容量（バイト数）が大きく 
なるほど，タグ部に必要なビット数を少なくできる. 
ただし，データ部の容量を大きくしすぎると，アクセ 
スするアドレス範囲がランダムな場合にキャッシュの 
ヒット率が低下し，性能が低下する.このため，デー 
夕部の容量の決定は，予想されるヒット率や利用でき 
る回路規模（この場合は面積）を考慮して決定しなけれ 
ばならない. 

• ラインの選択方式(連想方式） 

キャッシュでは， アドレスが与えられるとある 一つ 
のラインが選択される.この方式には，大きく分けて 
次の3種類がある. 

(1) フルアソシアテイブ方式 

(2) ダイレクトマッブ方式 

(3) n ウェイセットアソシアティブ方式 
• フルアソシアティブ方式 

この方式の概念図を 図 4に示す.フルアソシアテイ 


アドレス 



ヒツト/ミス 


図5ダイレクトマップ方式 


ブ方式において，与えられたアドレスはすべてのタグ 
部の内容と比較される.アドレスとタグが一致するラ 
インが存在すればヒット，存在しなければミスである. 
図 4の例ではライン1がヒットしているので，ライ 
ン1のデータ部の内容が有効なデータとして出力さ 
れる. 

この方式は直感的にわかりやすく，ラインをもっと 
も有効利用できる（したがって，同じライン数ではも 
っともヒット率が高い）方式であるが，全ラインの夕 
グ部との比較のための論理回路が巨大になるため，ま 
た，後述するキャッシュミス時にリフイルするライン 
を決定するための LRU (Least Recently Used ) 処理が 
複雑になるので，あまり採用されない. 

もっとも， LRU 処理をあきらめて ， FIFO (First In 
First Out ) 制御やランダムな選択でリフイルするライ 
ンを決定することも考えられる.その場合，ネックと 
なるのはタグ部の比較論理の回路規模だけである.ラ 
イン数が少数 （64 程度）であれば，連想メモリなどを 
用いて比較回路を構成することは難しくない.そのた 
め，この方式は ， MMU の TLB (Translation Look ¬ 
aside Buffer ) において，仮想アドレスから対応する物 
理アドレスを選択する（アドレス変換)場合に採用され 
ることが多い. 

• ダイレクトマップ方式 

この方式の概念図を 図 5に示す.この方式では，与 
えられたアドレスをデコードして特定の-つのライン 
に対応させる.デコードといっても大袈裟なものでは 
なく，単にアドレスの1部分のビット列でラインを選 
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比較 


ヒツト/ミス 


図6 4ウェイセットアソシアティブ方式 


択することが多い.キャッシュの構成が256個のライ 
ンからなり，1ラインのデータ部が4ワード (16 バイト） 
だとすれば，現在の MPU ではバイトごとにアドレス 
が割り振られているので，アドレスのビット4からビ 
ット11の8ビットで参照するラインの番号を決 
定すればよい （8 ビットなので256種類の値を指定で 
きる). 

もっとも，アドレス内の連続する8ビットで指定し 
た場合，アクセスするアドレス範囲が大きい場合はヒ 
ット率が低下する恐れもあるので，アドレスの上位数 
ビットを考慮したり，アドレスの二つの部分のビット 
列の排他的論理和を計算したりして参照するラインを 
決定する場合もある. 

この方式は，キャッシュリフイル時のラインが一意 
に決定されるので LRU 制御を行う必要がなく，回路 
構成も単純なため（したがって高速に動作し，消費電 
力も少ない），1世代前の] VIPU の内蔵キャッシュに多 
用されていた. 

• n ウェイセツトアソシアティブ方式 

この方式の概念図を図6に示す U = 4の場合）.見 
てわかるように《ウェイセットアソシアティブ方式 
は，ダイレクトマップ方式の構成を”個並列に並べた 
ものであり，それぞれが「ウェイ」と呼ばれる . n 個 
のタグの比較器をもち，アドレスをデコードして決定 
される各ウェイに属するラインのタグ部出力を同時に 
比較する • 一つで も一致するラインが存在すればヒツ 


卜である. 

この方式は構造が比較的単純で，ダイレクトマップ 
方式と比べてキャッシュのヒット率を上げることがで 
きる（最悪でもダイレクトマップと同じ）ため，もっと 
も多く採用されている.最新の MPU では/7 = 2また 
は4で構成されることが多いようだ.”の値を大きく 
すればするほどキャッシュのヒット率は向上するが， 
"が十分大きい場合は/7と"+1でのヒット率に大差は 
ない.経験的には， "= 4が回路規模とヒット率を考 
慮した場合の最適解であるとされている. 

なお，各ウェイに含まれるライン数が1で，"がラ 
インの総数に等しい場合がフルアソシアテイブであ 
る. a ? ウェイセットアソシアテイブ方式は，ダイレク 
トマップ方式とフルアソシアティブ方式の折衷案とい 
うこともできる. 

ところで， Intel の StrongARM ( XScale ) は 32 ウェ 
イセットアソシアティブと，驚異的なウェイ数を実現 
している. これは，ほとんど フル アソシアテイブ並み 
といえる. ARM の文献を読むと，この 32 ウェイ構造 
は連想メモリによって実現しているそうである.そう 
なると， フル アソシアテイブとどう違うのかという疑 
問が湧く.その実装方式は明らかにされていないが， 
どうやら フル アソシアティブキャッシュを 32 分割し 
て，1ウェイ当たり64エントリ（キャッシュサイズ 
16 K バイトの場合）で制御しているようである （64 エ 
ントリの フル アソシアテイブキヤッシュが' 32 個あ 


たは_ 
し効力 
卜有出 
ッが夕 
ヒカ I 
••出デ 
トタ： 
ツース 
ヒデ///効 
がのが無 
かィて r : 

れ h ベべ 

どゥすす 


106 



























































第 4 章キャッシュのメカニズム 


る）.連想メモリがタグの比較も行うので，1ウェイ 
からは1ビットのヒット/ミス信号が出力されるのみ 
である.これは32個のタグを同時に読み出すよりも 
効率がよさそうである.もっともこれは，仮想アドレ 
スキャッシュ(詳細は後述)だからできる芸当であろう. 
• 各方式でのキャッシュの効率 

ただし，キャッシュのライン数 （= サイズ）が多いこ 
とがキャッシュ効率と直接には結び付かないことにも 
注意したい.同容量のキャッシュサイズの場合，連続 
的にキャッシュできるエリア，ないしはウェイごとの 
キャッシュ容量は， 

キャッシュ容量//7 
で表される. 

ここで，たとえば容量が 0 x 800 バイトの《ウェイセ 
ットアソシアティブ構成のキャッシュを考える. /7 二 
8の場合，各ウェイの容量は 0 x 100 バイトである.1ラ 
インの容量を16バイトとすると，アドレスのビット7 
〜 4(4 ビット=ライン数は 16) が各ウェイのラインへ 
のインデックスとなる.そして次のような3種類のア 
クセスパターンで，キャッシュの効率を見てみよう. 

► アクセスタイプ a の場合 

さて，プログラムがアクセスするアドレスが， 

0 x 010，0 x 210，0 x 410，0 x 610，0 x 810 ， Ox A 10, 
OxCIO , OxElO •••(アクセスタイプ a ) 

というパターンで考えてみよう.これは，どれもライ 
ンへのインデックスは 0 x 01 であり，8ウェイあればす 
ベてのアドレスをキャッシュできる.それでは，= 
4の場合はどうだろう.各ウェイの容量は 0 x 200 バイ 
卜であり，アドレスのビット8〜 4(5 ビット=ライン 
数は 32) がラインへのインデックスとなる.上の八つ 
のアドレスに対して，この場合もインデックスはすべ 
て 0 x 01 となる.したがって，4ウェイでは八つのうち 
の四つしかキャッシュすることができない.効率は半 
分に低下する〔図 7( a )〕. 

► アクセスタイプ b の場合 
次にプログラムがアクセスするアドレスが， 

0 x 010， 0 x 110， 0 x 210， 0 x 310， 0 x 410， 0 x 510, 
0 x 610， 0 x 710 •••(アクセスタイプ b ) 

であるとどうなるだろう. 8ウェイの場合は，すべて 
のインデックスが 0 x 01 なので，先の例と同じく，す 
ベてをキャッシュできる.一方，4ウェイの場合は， 
0 x 010, 0 x 210, 0 x 410, 0 x 610 
のアドレスに対するインデックスは 0 x 01 だが， 

0 x 110， 0 x 310， 0 x 510， 0 x 710 


のアドレスに対するインデックスは 0x11 である.イ 
ンデックスが 0 x 01 と 0 x 11 のアドレスが4組あること 
になるので，4ウェイでもすベてのアドレスをキャッ 
シュできる.この場合のキャッシュ効率は同じである 

〔図 7( b )〕. 

► アクセスタイプ c の場合 

さらに，アクセスするアドレスが次のように偏って 
いる場合を考える. 

0 x 010，0 x 110，0 x 210，0 x 910， 0 xA 10, 0 xB 10, 

0 x 1010, 0 x 1110 .••(アクセスタイプ c ) 

この場合は，大まかに2ヶ所にデータが分布している. 
上と同様に考えると，8ウェイでも4ウェイでも効率 
は変わらない.しかし，2ウェイだと少しだけ，そし 
てダイレクトマップとなると大幅に効率が落ちてしま 
ぅ〔図 7( c )〕. 

以上の例でわかることは，ライン数よりもウェイ数 
を増やしたほうが効率的ということである.まあ，そ 
のほうがフルアソシアテイブ方式に近くなるので，当 
然といえば当然である.しかし，アドレスのばらつき 
がアクセスタイプ b の組のような条件ならば，無理し 
て複雑な8ウヱイ構成にする必要はない. 4ウヱイで 
十分である.また，アクセスタイプ c の組のような条 
件では，キャッシュ構成の複雑さとヒット率のトレー 
ドオフを考えると，2ウヱイが最適といえる （2 ヶ所に 
分布する傾向があるため）. 

• キャッシュサイズの決定 

実際のキャッシュ設計において，キャッシュサイズ 
が限定される場合，さまざまなシミュレーションを行 
ってもっとも効率のよいと考えられるウヱイ数に決定 
される.マルチスレッドで動作するプログラムをキャ 
ッシュする場合は，アドレスの下位ビットが一致する 
確率が高いので，ウェイ数を重視したほうが効率が上 
がる. Java 処理系など，インタプリタやカーネルな 
どのある程度広がりをもった局所的な部分にアクセス 
が集中しがちな場合は，ウェイごとの容量が大きいほ 
うが効率が良くなる傾向にある.キャッシュ構成の決 
定には，使用されるであろう OS やプログラムの種類 
などをよく吟味しなければならない. 

以上の性質を直感的にいえば，次のようになる.ア 
クセスするアドレス範囲が真にランダムであれば，キ 
ャッシュのヒット率はキャッシュサイズのみで決定す 
る.キャッシュの構成には無関係である.しかし，現 
実にはアクセスする範囲に偏りがあるので，ウェイに 
分けたほうがヒット率が上がる.たとえば，通常のア 
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図 7 各方式でのキャッシュ 
効率の比較 
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このように.キャッシュ容量を超える範囲 
で . データが一様に分布している場合，ウ 
ェイ数が多いほど効率がよい場合がある . 
同一のマスには一つのデータしか入らない • 
8 ウェイ以外では 4 個のデータしか同時に 
格納できない _ 
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このように，キャッシュ容量の範囲で.デ 
— 夕が一様に分布している場合.ウェイ数 
が変わってち効率は変わらない . 

同一のマスには一つのデータしか入らない . 
ダイレクトマップから 8 ウェイまで.すべて 
のデータを同時に格納できる 
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このように . データ範囲に偏りがある場合 . 
ウェイ数が多いほろが効率がよい . 

同一のマスには一つのデータしか入らない . 
ダイレクトマップでは 4 個 . 2 ウェイでは 
7 個 . 4 ウェイと 8 ウェイでは 8 個のデー-夕 
を同時に格納できる . 

この場合，データは 2 ヶ所にかたまってい 
るので . 2 ウェイでかなりの効果がある 
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プリケーシヨンプログラムでは，命令はアクセスが 
ューザー 領域と 0 S 領域の2ヶ所に偏る傾向があり，2 
ウェイセットアソシアティブキャッシュが有効であ 
る.あるいは，データはプログラム固有のデータ領域 
とスタックの2ヶ所をアクセスするので，この場合も 
2ウェイセットアソシアティブキャッシュが有効であ 
る.しかし，現実にはプログラムの動きはもう少し複 
雑なものと考えられ，経験的には4ウェイセットアソ 
シアティブがもっとも効率的とされている.そうであ 
っても，構成の簡単さ，消費電力の考慮から，2ウェ 
イセットアソシアティブ構成が採られる場合も多い. 
あるいは，キャッシュサイズが小さい場合は，アクセ 
ス範囲が十分ランダムとみなせるため，ダイレクトマ 
ップ構成も採用される. 

2 キャッシュへのアクセス方式 

キャッシュとは，アドレスを与えて（ヒットすれば） 
それに対応するメインメモリの（コピーしている）デー 
夕を得るものである.この場合，与えるアドレスが仮 
想アドレスであるか物理アドレスであるかによって， 
特徴に若干の違いがある. 

•物理インデックス，物理タグ 

この方式は，一般に「物理アドレスキャッシュ」と 
呼ばれる.物理アドレスからキャッシュのラインを決 
定し，出力されるタグ部には物理アドレスが格納され 
ているものとして比較する.キャッシュを MPU の外 
部に取り付けるしかなかった昔は， MPU の外部バス 
から出力されるアドレス（もちろん物理アドレス）でキ 
ャッシュにアクセスするしか方法がないので，当然物 
理アドレスキャッシュである.次に述べる仮想アドレ 
スキャッシュと違い，タスク切り替えごとにキャッシ 
ュを無効化する必要がないので，制御が簡単である. 
しかし，仮想アドレスから物理アドレスへのアドレス 
変換が終了しないとキャッシュにアクセスすることが 
できないので，キャッシュのアクセス時間に余裕がな 
くなり，高速動作させることが難しいのが欠点である. 
•仮想インデックス，仮想タグ 

この方式は，一般に「仮想アドレスキャッシュ」と 
呼ばれる.仮想アドレスからキャッシュのラインを決 
定し，出力されるタグ部には仮想アドレスが格納され 
ているものとして比較する.この方式ではアドレス変 
換と同時にキャッシュにアクセスできるため，また， 
キャッシュ自身にタグ比較の論理を取り込むこともで 


きるため，キャッシュアクセスに余裕ができ，高速で 
動作させることが可能である.しかし，欠点もある. 
メインメモリへの 最終的なアクセスは物理アドレスで 
行われるので， メインメモリの データは物理アドレス 
で一意に区別できる.つまり，物理アドレスが同じな 
ら同じ場所，物理アドレスが異なれば異なる場所を指 
す.しかし，仮想記憶で動作している場合，仮想アド 
レスが同じでも，同じ物理アドレスを指し示している 
とは限らない(ほとんどの場合，異なる物理アドレス）. 
ということは，単純に考えると，仮想アドレスだけで 
タグ比較を行っていると意図した物理アドレスと異な 
る場所からデータを取ってしまうことがある.これを 
エイ リア シン グまたは シノニムの 問題という. 

通常，仮想アドレスと物理アドレスの対応はタスク 
ごとに決まっているので，タスクが切り替わるとキャ 
ッシュのタグ部に格納されている仮想アドレスは無意 
味なものになる.したがって，仮想アドレスキャッシ 
ュを採用する場合は，タスク切り替えごとにキャッシ 
ュの内容を無効化する必要がある.これは制御回路の 
増大を招く.これを防ぐ方法としてタグ部の中にタス 
ク ID を一緒に格納しておき，タグの比較時に同時に 
タスク ID も比較することが考えられる.しかし，こ 
の場合はタグ部のビット数が増大する.また，ごく稀 
ではあるが，異なる仮想アドレスに同一の物理アドレ 
スを対応させる場合もある.仮想アドレスキャッシュ 
はこの場合に対応できない. 

Intel の StrongARM は仮想アドレスキャッシュを採 
用している.最初の SA -110 はタスク ID をサポートし 
ていなかったが，これでは実用性に乏しいのか， 
Windows CE に採用された SA -1 100や SA -1 110では夕 
スク ID をサボートするようになった. 

•仮想インデックス，物理タグ 

この方式にはとくに決まった呼称はない（と思う）. 
仮想アドレスからキャッシュのラインを決定し，出力 
されるタグ部には物理アドレスが格納されているもの 
として比較する.これは，物理アドレスキャッシュと 
仮想アドレスキャッシュの折衷案である.アドレス変 
換と同時に仮想アドレスでキャッシュにアクセスし， 
アドレス変換が終了する頃に，キャッシュから出力さ 
れる物理アドレスとアドレス変換した物理アドレスを 
比較する.そのためキャッシュのアクセス時間に余裕 
ができ，タスク切り替え時の無効化も必要ない.この 
方式は Motorola の MC 68040 以降や MIPS 系の MPU で 
採用されている. 
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3 リプレースメント方式 

キャッシュはヒットすることが前提とはいえ，現実 
には頻繁にミスが発生する.この場合，キャッシュ内 
にメインメモリの新しいコピーをもってくる必要があ 
る.このとき，どのラインに新しいデータを書き込む 
のかを決定する方法がリプレースメント方式である. 
書き込むラインが決定すれば，そこに新しいデータを 
リフイル（リブレース）する.ダイレクトマップ方式の 
場合は何の考慮も必要ない.アドレスに対して対象ラ 
インは一つしかないので，そこをリフイルする./7ウ 
エイセットアソシアテイブの場合は，与えられたアド 
レスに対して対象ラインは《個あるので，それから一 
つを選択しなければならない.フルアソシアテイブの 
場合は，すべてのラインがリフイルの対象である. 

• LRU (Least Recently Used ) 方式 

この方式は，プログラムの（時間的な）局所性という 


経験則に依っている.すなわち，いちばん昔にアクセ 
スされたラインはこれからアクセスされる確率が低い 
のでそこを更新する，というもっとも妥当な方式であ 
る.この方法では，/!ウェイセットアソシアテイブ方 
式の場合は，各ウェイの同ーインデックスにある"個 
のラインに対するアクセス頻度の履歴を記憶してお 
く.そのために，/! = 2の場合は1ビット，《 = 4の場 
合は6ビット ， /t = 8 の場合は28ビットのメモリが必 
要である.フルアソシアテイブの場合は全ラインのア 
クセス頻度の履歴を記憶しなければならないので，ほ 
とんど非現実的なビット数のメモリが必要である.こ 
のため， LRU 方式は，主として"ウェイセットアソシ 
アテイブ方式で用いられる. 

この方式の欠点としては，ラインへのアクセス（ヒ 
ット）ごとに LRU メモリを更新しなければならないの 
で，タイミング的に厳しいということくらいだろうか. 

• FIFO(First In First Out ) 方式(ラウンド□ビン方式） 

この方式は，/ I ウェイセットアソシアテイブ方式に 


Column 


キャッシュのヒット率に関して 


キャッシュの目的はメインメモリが低速な場合，プロ 
グラムが意識しなくてもメモリアクセスが高速に行える 
ということである.つまり，メモリアクセスがキャッシ 
ュにヒットしなければ性能は低下する.いくら高性能な 
キャッシュメモリを使用してもヒット率が低ければ意味 
をなさない.そこで，キャッシュの構成にはヒット率を 
向上させるための仕組みが盛り込まれている.この章で 
述べてきたキャッシュの構成はヒット率を向上させる目 
的で(試行錯誤の末？）提案されてきたものである.ここ 
で，キャッシュのヒット率を向上させるキーワードを明 
確にしておこう. 

•大容量 

キャッシュメモリの容量は大きければ大きいほどヒッ 
卜率が向上する.理想はメインメモリと同じ容量をもつ 
ことだが，それが実現可能ならキャッシュなどという特 
別な仕組みは不要である. 

•多ウェイ化 

フルアソシアテイブ方式がもっともヒット率が高い. 
回路構造上，現実困難な場合があるので，《ウェイセッ 
トアソシアテイブ構成で，ウェイの数をできるだけ多く 
するほどヒット率は向上する. 

春リフィルサイズの増大 

プログラムの性質にもよ るが， キャッシュのアクセス 
時間（速い）と バスの 転送 ス ピード（遅い） の 関係を考える 


と，一度に（バースト転送で)できるだけ多くのデータを 
キャッシュ内に取り込むほうがヒット率は向上する.ア 
クセスするアドレス範囲が大きくなるほど，多数のライ 
ンをリフイルする必要が生じる.そのラインへのアクセ 
ス頻度が少なければ，多量のバースト転送がかえってバ 
スネックになる恐れもあるので，リフイルサイズは大き 
ければ大きいほどい いという ものでもない. 

StrongARM はリフイルサイズを8ワード （32 バイト） 
としながらも，ライトバックは4ワードまたは8ワード 
のうち最適なほうを選択できるようになっている.つま 
り，1ラインに ついて ダーテイビットを，前半4ワード 
用と後半4ワード用の2ビットをもっており，リプレー 
ス 時にダーテイビットが1である4ワードのみをライト 
バックする.このようにしてライトサイクルの バス 占有 
時間を低減している.この方式を採る理由は，1ライン 
すべてがダーテイになる可能性は少ないという ， DEC 
(本来の開発元）の主張による. 

• LRU 処理 

データアクセスの（時間的，空間的）局所性が最大の拠 
り処である.ラインのリフイル時に，これからもアクセ 
スする可能性の高いラインを書き潰していたのではヒッ 
卜率は低下する. FIFO , ランダム方式に比べ， LRU 方 
式のほうがヒット率が高い. 
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おいて，0，1，2 ，…， n - 1,の順にリフイルするラ 
インを決定するものである.キャッシュラインがすべ 
て無効な状態からリフィルを続けていくと，ウェイは 
0，1，2，…， "- 1の順にリ フイ ルされていくので， 
この順に古い データが 格納されているとみな し， その 
順序で新しいラインを決定する方式である.アクセス 
頻度が無視されてはいるが，一応，古いラインからリ 
フィルしていくという方針である.ヒットする場合に 
順序の更新が行われないので，当然 LRU 方式よりも 
ヒット率は悪くなる.履歴の記憶に必要なメモリのビ 
ット数は，カウンタを形成すればいいので，/? = 2の 
場合は1ビット，= 4の場合は2ビット，《 = 8の場 
合は3ビットで足りる. LRU 方式に比べて少ないビッ 
卜数で済むのが特徴である.フルアソシアティブ方式 
の場合はラインの番号順にリフィルしていけばよいだ 
ろう. 

先にも挙げたが， Intel の StrongARM ( SA - llOO ) は， 
32ウェイセットアソシアティブという（嘘のような？） 
キャッシュ構成を採っているが，さすがに LRU 方式 
ではなく，この FIFO 方式を採用している. FIFO 方 
式は，対象エントリの番号が順次回転していく（最後 
の次は最初に戻る）ので，ラウンドロビン（回転）方式 
ともいう. 

• ランダム方式 

この方式は，ランダム（無作為）にリフィル対象のラ 
インを決定する方式である.どのアドレスも同じよう 
な頻度でアクセスされるはずという予測に基づいてい 
る.ラインを指定するために必要なメモリのビット数 
は FIFO 方式の場合と同じである.1クロックあるい 
は キャ ッシュ への 1アクセスごとにそのメモリを更新 
(たとえば+ 1) しておいて，リフィルが必要になった 
場合に，そのメモリの値が（たまたま）示しているライ 
ンをリフィルする.ヒット率としては FIF 〇方式と大 
差ないと思われる.論理が単純なためか，この方式は 
けっこう多くの MPU で採用されているようである. 


4書き込み制御 


キャッシュは何もリードするだけではない.書き込 
みを行う場合もある.キャッシュはメインメモリの内 
容を コピーして いるものだから，常にメインメモリの 
内容と整合性（コヒーレンシ）が保たれている必要があ 
る.それを実現するために，いくつかの制御方式が考 
案されている. 


•ライトスルー(ストアスル ー) 方式 

これはライトデータに関して，常にメインメモリに 
も書き込みを行う方式である.誰もが考えつく方式で 
あろう.ライトアドレスがキャッシュにヒットする場 
合は，ライトデータをメインメモリと同時にキャッシ 
ュのデータ音こも書き込む.キャッシュミスの場合は 
キャッシュは無視してメインメモリのみにデータを書 
き込む方式が一般的である. 

キャッシュミスの場合には，まずリフィルを行い， 
そのラインとメインメモリの両方にデータを書き込む 
方式もある.これはライトアロケートと呼ばれる.ス 
タックなど，ライトしたアドレスは再びリードする傾 
向があるので，あらかじめそこのアドレスをキャッシ 
ュに入れておこうという発想である.ライト アロ 
ケートは，ライトしたアドレスを再びリードする確率 
が高くないと効果がない.ライトしたアドレスを再び 
リードする場合も，後で発生するはずのリプレースを 
ライト時に先行して行うだけなので，トータルのリブ 
レース回数には変化がない.この意味で，ライト アロ 
ケートが効果的かどうかという点については疑問が 
残る. 

ライトスルー方式を採用する場合，ライトごとにメ 
インメモリへの書き込みバスサイクルが発生するの 
で，連続してライトを行う場合は，前の書き込みバス 
サイクルが終了するまで次の書き込みバスサイクルを 
開始できない.このとき MPU のパイプライン処理が 
待ち合わせのために停止してしまう.それを防ぐため 
に，ライトスルー方式を採用する MPU ではライトバ 
ッファを数段分もっていることが多い.逆に，ライト 
バッファがないと性能が低下する. 

•ライトバック（コピーバック)方式 

この方式は，メインメモリへのライトアクセスを最 
小限に抑える方式である.つまり，ライトが発生して 
も（ヒットする場合は）キャッシュのデータ部のみしか 
更新しない.当然，メインメモリとの整合性は保たれ 
なくなる.その代わり，そのラインの整合性が保たれ 
ていないことを記憶しておく.そして，後で一括して 
ラインごとメインメモリに書き戻す.そのタイミング 
は，そのラインがキャッシュにミスし，新しいデータ 
をリフイルしなければならないときである.ライトの 
いくつか（大半？）はキャッシュにヒットするので，メ 
インメモリに対する書き込みバスサイクルの回数を削 
減することができる.このメインメモリへの一括した 
書き込み動作を特別にライトバックと呼ぶ. 
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ライトバック方式のキャッシュはライトアロケート 
である.キャッシュミスが発生すると，まずリフイル 
を行って，そのラインの データ 部にライトデータを書 
き込む.このとき，メインメモリには書き込まない. 
また，ライトバック方式のキャッシュでは各ラインが 
現在のキャッシュ状態というものをもっている.メイ 
ンメモリと整合性が保たれている状態をクリーン 
( Clean ) ,保たれていない状態をダーテイ （ Dirty ) とい 
う•この状態を示す情報はタグ部に格納されている. 
図8 にライトバック方式のキャッシュの状態遷移を 
示す. 

ライトバックはライン単位で行われるのが一般的で 
ある.つまり，1ラインごとに1ビットのダーテイビ 
ットをもって管理するわけだ.しかし，ラインのすべ 
てがダーテイになるのは稀である.たとえば，1ライ 
ンが32バイトだとすると，そのうち4バイト程度しか 
ダーテイにならないことがある.これを中途半端な 
ダーテイという.この場合，1ラインの32バイトすベ 
てをライトバックするのは効率的ではない.本当に 
ダーテイな4バイトのみをライトバックできれば，ラ 
イトのバスサイクルが減少するので，メモリ効率が良 
い.これを実現するには，1ライン当たりのダーテイ 
ビットを複数もつことである.たとえば ， Strong 
ARM は，8ワード （32 バイト）の1ラインに対して， 
下位4ワード用と上位4ワード用の2ビットのダーテ 
イビットをもつ.キャッシュのリフイルは必ず8ワー 
ドで行われるが，ライトバックは，ダーテイビットの 
状況に応じて，4ワードまたは8ワードで行われて 
いる. 


5キャッシュを支える各種機能 

• リフィルサイズ 

キャッシュミスが発生すると，そのラインはリフィ 
ルされる.通常リフィルはライン単位で行われる.た 
とえば，ラインのデータ部が4ワード (16 バイト）なら， 
一度に4ワードのデータをメインメモリから読み込 
む.これは，いったんアクセスしたアドレスの近傍を 
再びアクセスする確率が高いという，またもやプログ 
ラムの局所性に依っている.また，キャッシュのリフ 
ィル時に発生するバスサイクルは一般にバースト転送 
と呼ばれるバスサイクルである.これは，メモリをバ 
スクロック同期で連続的にアクセスする.最近のメモ 
リデバイスは RAM にせよ ROM にせよページモード 
というモードをもっている（今流行の SDRAM も似た 
ような動作をする）.このモードにおいて，最初のア 
クセスのアクセス時間はやや遅い（というか通常の速 
さである）が，連続するアドレスの2回目以降は，最 
初の半分程度のアクセス時間でアクセスできる. 4 
ワードのデータを4回に分けてリードするよりも，4 
ワードのバースト転送を行ったほうがはるかに高速な 
のである（図 9). 

MPU によっては複数のラインを同時にリフィルす 
るものもある.これは，アクセスする可能性が高いア 
ドレス範囲をあらかじめキャッシュに入れておくほう 
がヒット率の向上が見込めるためだが，ページモード 
との相性のよさも考慮されているはずである. 

現在の MPU では，1回のリフイル時にリードする 
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図 9 バースト転送のイメージ 


ク□ック 


アドレス ( A0 ん A1 \ 八 2 X A3 、— 


データ 


<〇〇)- <2 L > - 

( a ) 通常アクセス 



ク□ック 


アドレス 



データ 



(b ) ページモード 


データ量（ラインのワード数，または，その倍数）は8 
ワードが多いようである. MPU によっては32ワード 
程度まで設定可能なものもある.プログラムの性質 
(分岐の発生頻度や同じアドレスをアクセスする確率 
の大小）を考慮しながら，最適な値をユーザーが設定 
できる. 

頻繁に分岐が発生するプログラムでは，プログラム 
の実行はリフィルが終わるまで待たされるので，リフ 
ィルサイズが大きいとリフイル （= キャッシュミス）の 
発生する確率が大きくなり（同じキャッシュラインへ 
の分岐はしないと仮定)，命令実行が阻害されてしま 
う.後で述べるフヱッチバイパスを行えば，性能低下 
は多少抑えられるが，リフィルの発生する頻度は同じ 
なので，性能がバスネックになる.逆に，分岐がほと 
んど発生しないプログラムでは，できるだけ多くの命 
令をリフィルしたほうが得である（とくにフェッチバ 
イパスを行う場合). 

かつて，筆者は某 0 S 上でいくつかのアプリケーシ 
ョンプログラムの実行結果をト レース したことがあ 
る.このとき，分岐命令の出現頻度は8命令に1回程 
度だった.この結果から，8命令分を1回にリ フィル 
すればリ フィルに かかる時間が最小になると考えられ 
る.多くの RISC において，命令長は32ビット （1 ワー 
ド）なので，リ フィル サイズは8ワードが最適という 
ことになる. 

• クリティカルワード 

分岐先がキャッシュミスを起こす場合，その分岐先 
がキャッシュ ラインの 先頭とは限らない.そんな場合， 
リフィルを キャッシュ ラインの 先頭から行って いたの 
では，目的の命令を取り込むまでに時間がかかって し 
まう.分岐先に対応するアドレスから先に リフィルし 


てほしい.当然ながらこういう考えが生まれる.分岐 
先が含まれる，キャッシュラインのワードをクリティ 
カルワード (critical word =緊急にほしいワード）と 
呼び，クリティカルワードからリフィルを始める方式 
をクリティカルワードファースト (critical word first ) 
と呼ぶ. 

たとえば，4ワード （16 バイト）のラインサイズを仮 
定し，分岐先が‘4番地であるとする.この場合，通常 
方式（シーケンシャル方式）は，0，4, 8，12番地の順 
にリフィルするのだが，クリティカルワードファース 
卜だと，4, 8,12，〇番地の順にリフィルする.もし， 
キャッシュラインのワードごとにバリッド（有効）ビッ 
卜を備えるなら，最後の〇番地の命令はリフィルしな 
くてもいいかもしれない.しかし，リフィルサイズを 
動的に可変とすると制御が複雑になるので，通常は行 
わない. 

ちょつと考えればわかるが，クリティカルワードフ 
ァースト方式ではフヱッチバイパスを実行しないと意 
味がない. 

ところで，クリティカルワードとよく似たリフィル 
方式にサブブロック （ sub - block ) 方式がある.インタ 
リーブ ( interleave ) 方式ともいう.これは，クリティ 
カルワードから始めて，それが属するブロックから順 
番にリフィルする方法である.具体的には，シーケン 
シャルなアドレスとクリティカルなアドレスの排他的 
論理和を計算して，リフィルを行う.つまり，4番地 
がクリティカルワードの場合， 

0 XOR 4—4 
4 XOR 4—0 • 

8 XOR 4 — 12 
12 XOR 4 — 8 
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アドレス、 Ax 
データ - 


Ay 


ィ DxO)(Dxl X Dx2 )(jjx3 )- 
(a ) 通常のリフィル 


ベ DyO X Dyl ； 


アドレスぐ Ax 义 Ay ) --- 

(ID) < IDx X IDy ) - (_ _ IDx _ \ _ [Dy _ ) - 

データ- (DxO\ Dxl X ~ Dx 2 >(^Dx3 ><[DyO)( Dyl X Dy2) ( Dy3 ) —— 

(b) ノンブロッキング（インオーダ） 

アドレス < Ax X Ay ) - 

ID ( IDx X IDv ) —— ( IDy__} - \ _IDx_ r 

データ- (DyO V Dyl X Dy2 /~Dy3 ) - ( DxO XfPxiyDx2 )Cdx3> 

( c ) ノンブロッキング（アウトオーダ） 

図10 ノンブロッキングキャッシュの概念 


と計算されるので，4，0，12，8番地の順に命令を取 
り込む.これは，命令実行の効率を考慮したものでは 
なく，メモリ側の効率を考慮したものである.クリテ 
イカルワードからアクセスする場合，次にアクセスす 
るアドレスを加算なしで予測できるため，メモリから 
のデータ出力を，アナログ的に高速化できる. 

• ノンブロッキングキャッシュ 

通常，キャッシュミスが発生すると，リフィル動作 
(バースト転送)が終了するまでパイプラインが止まつ 
てしまう.ノンブロッキングキャッシュとは，キャッ 
シュミスが発生してもパイプラインを停止せずに先に 
進める技術である.キャッシュミスをヒットのように 
扱うことから「ヒットアンダーミス」ともいう. 

具体的な実装は，リフィルデータを格納するための 
リードバッファを何組か用意しておき，キャッシュミ 
スが発生するとリードバッファとリード（またはスト 
ア）を発生する命令を関連づける.リフィルはリード 
バッファに対して行い，キャッシュは暇を見て更新す 
る•その間パイプラインを止めるようなことはしない. 

さらに，リフイル要求と同時にバッファの ID (番号） 
を同時に出力し，外部からはデータにその ID を付け 
て返してもらう方式も考えられる.リフィルデータは 
ID で区別できるので，キャッシュミスを発生した順 
序でデータを返す必要はない（アウトオブオーダ)•も 
ちろん，キャッシュミスを起こした順番にデータを返 
す（インオーダ)場合は，データを区別する ID は不要 
である. 2次キャッシュをもつ場合や，マルチプロセ 


ッサ構成になると，アクセスごとにデータを用意でき 
る時間が異なるので，アウトオブオーダなデータ応答 
は実効性能を上げる意味もある.図10にノンブロッ 
キングキャッシュの概念図を示す. 

ノンブロッキングキャッシュは，リードしたデータ 
をすぐに参照しない場合に効果がある.このためには 
コンパイラの命令スケジューリングによる最適化が必 
要になる. 

リードしたデータを次に參照しない場合でも，連続 
するデータが バース ト転送でキャッシュにリフィ ル さ 
れているので，ノンブロッキングキャッシュには後述 
するプリフヱッチの効果も期待できる. 

また，キャッシュミスはロード/ストア命令の実行 
に付随して発生する.そのため，ノンブロッキングキ 
ャッシュ環境下でのロード命令では，命令の追い越し 
が行われ，デスティネーションレジスタへの書き込み 
はアウトオブオーダになる.その意味で，ノンブロッ 
キングキャッシュは複雑な制御となる.このため，ノ 
ンブロックキャッシュでは割り込み応答に時間がかか 
ったり，例外発生時の正確さ （ precise ) を欠いたりす 
る場合がある.これらを避けるため，普通はノンブロ 
ックキャッシュ機能を禁止するしくみがある. 

個人的には，ロー ドしたデータの使用をそれほど先 
延ばしできるとは思えないので，ノンブロッキングキ 
ャッシュの効果については懐疑的である.しかし，某 
研究所のシミュレーション結果によれば，5段程度の 
バッファがあれば非常に有効という結果が出ているの 
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図 11 R 3000 のパイプラインと命令キャッシュ/データキャッシュを参照するタイミング 


で，もしかしたらそうなのかもしれない（多分，アウ 
トオブオーダ方式の場合だろう）. 

#命令キャッシユとデータキャッシユ 

図 11 に R 3000のパイプライン動作を示す.この図 
で， 「 ICache 」 が命令キャッシュへの， 「 DCache 」 が 
データキャッシュへのアクセスを示している.図を見 
ると命令1のデータキャッシュへのアクセスと命令3 
と命令4の命令キャッシュへのアクセスのタイミング 
が重なっている.命令キャッシュへのアクセスは毎回 
発生するが，データキャッシュへのアクセスはロード 
/ストア命令のみで発生するため，アクセスが重なる 
ことは多くないが，まったくないとはいえない.この 
場合，同じキャッシュからデータを参照することは 
(どちらかのアクセスを待ち合わせてバイプラインを 
一時停止しなければ)不可能である. R 3000はパイプ 
ラインをできるだけ停止させないことを信条としてい 
るので，命令キャッシュとデータキャッシュを分けて 
独立なアクセスを可能にしている.このように，命令 
キャッシュとデータキャッシュをアクセスする経路を 
別々に設けるアーキテクチャを（修正）ハーバードアー 
キテクチャという.米国ハーバード大学で初めて提 
唱されたのでこの名称があるのだろう. CISC では 
Motorola の MC 68020辺りで初めて採用されたように 
思ぅ. 

ハーバードアーキテクチャの欠点 （？） は，命令キャ 
ッシュとデータキャッシュが別のため，命令書き換え 
に対応できないことである.また，同じアドレスの内 
容を命令とデータキャッシュでそれぞれ独立に記憶す 
る場合があるので，メモリのむだといえばむだである. 

逆に，命令とデータで同じキャッシュをもつのがユ 
ニファイドキャッシュである. Intel の i 486 あたりま 


でがこの方式を採用している.命令書き換えに対応で 
きる（パイプライン動作をしているので，書き換えを 
行ってからキャッシュに反映されて命令フエッチでき 
るまでに数命令分の遅れがあるはずであるが）し，メ 
モリもむだにならない. i 486 はハードウエアアーキテ 
クチャこそ RISC であるが，命令セットアーキテクチ 
ヤは「バリバリの」 CISC なので，メモリアクセスが 
非常に多い.命令キャッシュとデータキャッシュの同 
時アクセスによるパイプライン停止が頻繁に発生して 
いると思われるのだが，どのように対応しているのだ 
ろう（詳細情報は公開されていないようだ). 

Intel も， Pentium 以降は命令キャッシュとデータ 
キャッシュを分離した.命令キャッシュとデータキャ 
ッシュのアクセスの競合をなくすためだという.ただ 
し，これまで動いていたプログラムが動かなくなって 
は互換性に問題が生じるので，命令書き換えは依然と 
してサポートしているようである. 

なお，ハーバードアーキテクチャに対応して，命令 
とデータの経路が共通な方式をプリンストンアーキテ 
クチャということもある（あまり一般的ではないが）. 
これは，初期のコンピュータを提唱したフォン•ノイ 
マン教授がプリンストン大学に属していたことに由来 
する. 

% 1次キャッシュと2次キャッシュ 

図1 で示したメモリ階層が MPU の内蔵キャッシュ 
にも当てはまる.チップに内蔵できるキャッシュ （ 1 
次キャッシュ）の容量にはチップサイズから来る上限 
値がある （64 K 〜 128 K バイト程度）ので，少し低速で 
大容量 （128 K 〜 4 M バイト程度）の SRAM をキャッシ 
ュ （2 次キャッシュ）として外付けする構成が考えられ 
る.この場合，外付けという性格上2次キャッシュは 
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物理アドレスキャッシュである. MIPS の R 4000/ 
R 5000 / R 10000 などは，この構成を採用している.ま 
た，2次キャッシュがチップに内蔵されるようになっ 
た最近では，外付けの3次キャッシュをサポートする 
MPU も登場してきている. 

ところで，最近では，1次キャッシュ （Primary 
Cache ) , 2次キャッシュ （Secondary Cache ) , 3次キ 
ャッシュ (Tertiary Cache ) は，それぞれ， L 1 キャッ 
シュ ( Level 1 Cache ) ， L 2 キャッシュ ( Level 2 Cache ) ， 
L 3 キャッシュ （ Level 3 Cache ) と呼ばれる場合も多い 
よぅだ. 

• プリフェッチ 

プリフヱッチとは特定の命令（プリフェッチ命令）を 
実行することで，パイプラインを止めることなく，キ 
ャッ シュ（通常はデータキャッシュ） への リフィルを強 
制的に行う.同時に，データキャッシュへのアクセス 
が発生するリード命令やライト命令を実行しない限り 
パイプラインを止める必要はない.ただし命令キャッ 
シュは，基本的には，絶えずアクセスされているので， 
パイプラインを止めずに命令キャッシュへのプリフェ 
ッチを行うことは事実上不可能である.したがって， 
命令キャッシュへのプリフヱッチ命令は，もし存在し 
ても意味がない， 

さて，どの領域をプリフェッチするかはプログラマ 
(や コンパイ ラ）が明示的に指定する必要がある.近い 
将来にアクセスする領域を指定しておけば，データキ 
ャッ シュアクセスと競合し ない 限り， バスの アイドル 
期間を縫ってキャッシュへのリフィルが行われる.プ 
リフェッチは有効に使えばかなり効果がありそうで 
ある. 

プリフェッチが行われる契機はプリフェッチ命令に 
よることが多い.しかし，最近ではハードウェアで自 
動的にプリフェッチを行う場合もある.キャッシュの 
無効な部分をそのままにしておくのはもったいないの 
で，できるだけ有効データを取り込んでおこうという 
考え方である.ハードウェアプリフェッチを実装すれ 
ば，プリフェッチ命令を用いなくても，バスのアイド 
ル時間を縫って自動的にプリフヱッチすることが可能 
である.この機構はとくに命令キャッシュに対して有 
効である.上述したように，命令キャッシュは絶えず 
アクセスされるので，プリフェッチの契機となるアイ 
ドル時間は発生しにくい.命令キャッシュのプリフェ 
ッチを効率的に行うには，リードしながらライト可能 
な機構をキヤッシュに埋め込む必要がある. 


ただし，命令キャッシュへのプリフェッチは無条件 
に連続して行えばいいというものではない.実行する 
命令列には定期的に分岐命令が出現し，まったく別の 
アドレスに分岐する可能性もある.分岐命令の次まで 
もどんどんプリフェッチするのは効率が悪い•そこで， 
命令フェッチ部分にプリデコード機能を設け，分岐命 
令と思われる命令コードに行き当たるとプリフェッチ 
を停止する方式が採用される.あるいは，分岐予測機 
能もプリフェッチ機構に含め，分岐命令に行き当たっ 
ても，分岐予測をしながら，予測した分岐先からプリ 
フェッチを継続する場合もある.この考えを推し進め 
ていくと， Pentium 4 が採用している実行トレースキ 
ャッシュ になる. 

• フェッチバイパス 

多くの MPU はメモリアクセスがキャッシュにヒッ 
卜することを前提に設計されている.ノンブロッキン 
グキャッシュは別であるが',キャッシュミスが発生す 
るとリフィルが完了するまでパイプラインが停止す 
る.命令の連続実行という観点でいうと，一度止まっ 
てから最高速で動き，また止まってから最高速で動く 

. という動作を繰り返しているというイメージであ 

ろうか. 

そこで，誰もが思いつくのが，止まっている時間が 
もったいないので， リフィ ルしている データをキャ ッ 
シュに書き込むと同時に MPU にも渡してしまうとい 
う方式である.そうすると リフィ ル中もパイプライン 
が動作できる.ただし，その間は，命令の実行ス ピー 
ドはバスクロック程度になってしまう.これがフェッ 
チバイパスである. 

パイプラインクロックとバスクロックに差がありす 
ぎる場合は，バイパス効果はあまり期待できないが， 
差がほとんどない場合は非常に有効である.バスサイ 
クルは常に起動されているわけではなく，バスサイク 
ルとバスサイクルの間には数クロックのアイドル期間 
が生じる.リフィルする命令数が少ない場合は，この 
数クロックの間にそれらの命令を実行できてしまう. 
つまり，このような場合は，バスサイクルと同時に命 
令を実行するのも，命令をキャッシュに取り込んでか 
ら命令を実行するのも，ほとんど同じ実行効率となる. 

MIPS では， R 3000の命令実行においてフェッチバ 
イパス方式を採用しており，「命令ストリーミング」 
と呼んでいる. 

• キャッシュ□ック 

高速にアクセスできる作業領域を MPU のチップ内 
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に持ちたい場合がある.あるいは性能にクリティカル 
な命令領域を常に高速にアクセスしたい場合がある. 
このような機能を，キャッシュを用いて実現すること 
ができる（もちろん，そういう機能が用意されていれ 
ば）.キャッシュの特定のラインにキャッシュミスが 
生じても新たなリフィルによって更新しなければよ 
い.この機能をキャッュロックという. 

キャッシュロックの実装方法はさまざまである.現 
在のキャッシュの構成方式 （/! ウェイセットアソシア 
ティブが主流なので，それを念頭におく）は，タグ部 
の中にロックビットを設けてライン単位にキャッシュ 
ロックを指定する方法のほかに，特定のウェイをすべ 
てロックしてしまうという方法もある. 

キャッシュロックの目的は，ある一定量の領域をプ 
ログラムの作業領域として確保することである.細々 
とロックの指定をしなくても，せいぜい4〜8ワード 
のライ ン 単位に 一つの ウェイに属する1，000ワード 
(4 K バイト）以上の単位でロックできれば十分である. 
ダイレクトマップ方式のキャッシュでキャッシュロッ 
クを採用する MPU もあるが，さすがにこの場合はウ 
ェイ単位でロックを指定することは非現実であろう. 
もともとウェイ が一つ しかないので，キャッシュがま 
ったく機能しなくなってしまう. 

_キャッシュ可能領域 

MPU によっては周辺デバイスにアクセスするため 
の I / O 命令 ( IN ， OUT などの命令）が用意されている 
が，メモリ空間の一部を I / O 領域として割り付けるこ 
と（メモリマップト I / O ) を前提とし， I / O アクセスの 
専用命令がない場合も多い. I / O デバイスは同じアド 
レス （ I / O ポート）をリードしても同じ値が返ってくる 
とは限らない.っまり， VO 空間をキャッシュしては 
ならないのである. 

このほかにも， フレームバッファ や DMA の作業領 
域など，キャッシュ対象にされると具合の悪いメモリ 
空間もある.このように，同じメモリ空間の中でもキ 
ヤッ シュしてよい（メインメモリの コピーを もってよ 
い）領域としてはいけない領域が存在する. 

これをどのように区別するかが問題である.大抵の 
MPU では，ある領域がキャッシュ可能であるか否か 
を MMU で仮想アドレスのページ単位に指定できるよ 
うになっている.仮想記憶をサポートしない MPU で 
は物理アドレスでキャッシュ可能空間とキャッシュ不 
可能空間が区別されている. MPU の専用端子でキャ 
ッシュ可能/不可能を指定する方式もある.つまり， 


キャ ッシュリ フィ ルのバス サイクル中に，ある専用端 
子をアサート（アクティペート，活性化)することによ 
り，その時点でデータバスに乗っているデータはキャ 
ッシュに入れないとする方式である.再び同じアドレ 
スにアクセスする場合は，（キャッシュに入っていな 
いので）キャッシュミスするため，もう一度リフィル 
が発生する.ここで再び専用端子をアサートすれば， 
そのデータもキャッシュに入ることなく MPU に渡さ 
れる.このようなしくみでキャッシュ不可領域を実現 
できる.もっとも，ライトバック方式のキャッシュで 
は破綻をきたすかもしれないが. 

• バス スヌープ 

DMA などメインメモリに直接アクセスする処理を 
行う場合，メインメモリとキャッシュの内容が食い違 
うという現象が発生する. I / O とは異なり， DMA に 
よるデータは通常はキャッシュしてもかまわないデー 
夕であるが，食い違いを MPU に通知し，メインメモ 
リとキャッシュの整合性を回復する必要がある.この 
ための一手法がバススヌープである.バスモニタとも 
いう. 

具体的には，アドレスを指定してそのアドレスにヒ 
ットするキャッシュラインを無効化する.この場合， 
MPU の外部からキャッシュを無効化するアドレス（多 
くの場合，アドレスバスが使用される）を入力し，専 
用端子をアサートすることでスヌープが実現される. 

図12 にバススヌープ機能の概念図を示す.しかし， 
バススヌープ機能をもたない MPU も多い. DMA コ 
ントローラは転送の終了時に TC(Terminal Count ) 割 
り込みを発生するので， MPU はその割り込みを検知 
して割り込みを発生し，割り込みハンドラ内で DMA 
されたアドレスに対応するキャッシュラインを専用命 
令（キャッシュを内蔵する MPU にはたいてい用意さ 
れている）で無効化すれば事足りるからである. 

このように DMA の場合は割り込みによってソフト 
ウェアで処理できるが，メインメモリを共有するマル 
チプロセッサ構成では，他のプロセッサがメインメモ 
リの内容を書き換えたのを検知するのは容易ではな 
い. この場合は，割り込みを使用すると処理が繁雑に 
なるので，バススヌープが活用される（というか，バ 
ススヌープ機能がなくてはマルチプロセッサ対応とは 
いえない). 

• ウェイ予測 

MPU の設計において，キーポイントの 一つが 消費 
電力の削減である. MPU の中でもっとも電力を消費 
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図 12 バス スヌープの 概念 
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する部分は，じつはキャッシュであり，総消費電力の 
半分程度がキャッシュで消費されているといっても過 
言ではない.消費電力を削減するために，キャッシュ 
の回路設計においてはメモリセルのブロック分割など 
の手法が採られることが多い. 

そして，ウェイ予測もキャッシュの消費電力を削減 
するために考案された技術である.対象となるのは n 
ウェイセットアソシアテイブ構成のキャッシュであ 
る.通常の構成では，あるアドレスが与えられたとき 
に，すべてのウェイのタグ部とデータ部の内容を内部 
バスに出力し，キャッシュヒットするウェイがあれば 
そこの データを 選択する. 

いま， 一つの ウェイから1 回に 出力される データが 
1ワード （32 ビット）であるとしよう.このとき，4ウ 
ェイ セッ トアソシア テイ ブの 場合は 4ワードの データ 
が同時に内部バスに出力され，128ビット分の値が変 
化する.バスを構成する各ビット線を0から1，また 
は1から0に変化させるためにはトランジスタによっ 
て目的の値になるようにビット線を駆動しなければな 
らない.このときに電力を消費する.バス上の値が変 
化しなければ電力はほとんど消費されない. 

さて，ウェイ予測とは，内部バスを同時に駆動する 
のではなく，予測したウェイから順番に駆動していく 
(キャッシュのヒット/ミスも順番に判定する）方式で 
ある.上の例でいえば，1回当たりのバス上の信号変 
化は32ビット分のみになり，単純計算で，消費電力 
は1/4になる.ただ，片方のウェイのヒット/ミスを 
判断してから他方のウェイをアクセスするため，キヤ 


ッシュアクセスのタイミングは厳しくなるという欠点 
がある. 

図13に，2ウェイセットアソシアティブ構成時にウ 
ェイ予測を行う場合のタイミングチャートを示す.図 
で X ， Y はウェイのどちらかを表している.どちらの 
ウェイから先にヒット/ミスの判定を行うか（これが予 
測）については， LRU ビットの値から予測する，前回 
のキャッシュアクセスと同じウェイを見るなどの方法 
が考えられるが,決定版という方法はないようである. 
ウェイ予測が当たればヒット/ミスの判定にロスはな 
いが，予測が外れればヒット/ミスの判定に1クロッ 
ク程度のロスが生じる.この場合，たしかに性能は若 
干低下するが，性能と消費電力のどちらに重点を置く 
かで，ウェイ予測の採用/不採用が決まるであろう. 

事実，最近の MPU ではウェイ予測を採用すること 
がけっこうあるようだ. スーパースカラ 方式の MPU 
では デコードした命令を命令キュー （ FIFO ) に蓄えて 
おき，そこから命令実行ユニットに命令を発行する. 
命令デコードと命令発行の間には時間差があるので， 
ウェイ予測 ミス 時の ペナ ルティは命令キューで緩衝さ 
れ見かけ上はゼロになる. 

ウェイ予測に関しては，基本特許が多く出願されて 
いる.最近，ウヱイ予測を公表する MPU が多いが， 
特許の利権関係はどうなっているのだろうかと他人事 
ながら心配してしまう. 

ところで，キャッシュアクセスはプログラムの実行 
においてもっともクリティカル（時間がかかる）部分で 
ある.この部分にウェイ予測を導入するとロジックが 
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図13ウェイ予測の概念 

複雑になり，クリティカルパスが生じやすい.先に予 
測したタグを見てウェイのヒット/ミスを判断してか 
ら初めて別のウェイを參照することは，時間的 (RAM 
のアクセスタイム）に厳しい.したがって，動作周波 
数を向上したい場合は，ウェイ予測は敬遠される傾向 
にある. 

• 高性能 MPU の命令キャッシュアクセス 

最近の高性能 MPU では，命令キャッシュへのアク 
セスとデコード部分を実行部分と切り離して自律して 
動作させる.これをデカップル ( decouple = 分離）方式 
と【乎ぶ. 

つまり，命令実行パイプラインとは無関係に，命令 
を絶えずメモリから読み込み続けて命令キャッシュに 
格納している.この際，メモリから出てくるデータを 
プリ デコー ド（おおまかな デコード， 正確である必要 
はあまりない）して，分岐命令を探し当て，分岐予測 
機構と共同して次にアクセスするキャッシュラインを 
予測する.この機構を 図14 に示す. 

デカップル方式では，デコード以降の命令実行パイ 
プラインから見れば，欲しい命令は必ず命令キャッシ 
ュにヒットすることを期待している.これは，キャッ 
シュを前提とした RISC では当然の発想であるが，予 


測して命令を取り込み続けるフェッチ機構は複雑なの 
で，高性能な MPU でしか採用されない. 

デ カップル方式で， デコー ド部分をフヱッチ側に見 
るか，実行側に見るかは微妙なところがある.構造的 
には デコー ド部はフェッチ側に近く，-般に デ カップ 
ルと言えば， デコー ド部と実行部以降が命令 キュー 
(リザべ ーシヨンステーシヨン） の前後で分離され てい 
ることを指す. 

デカップル方式というか命令フェッチ機構の自律化 
は，今は亡き （?!） Alpha , MIPS R 10000 シリーズ， 
PowerPC が採用している. Pentium 4 に採用された実 
行トレースキャッシュも，似たような発想である. 

• 仮想アドレスキャッシュは最近の流行か 

動作周波数の高い最近の MPU では，仮想アドレス 
キャッシュが流行になりつつある.キャッシュのアク 
セスが周波数向上のクリテイカルパスとなることは稀 
ではないので， TLB を参照せずにヒット/ミスを決定 
できる仮想アドレスキャッシュは，キャッシュアクセ 
スに余裕をもたせることができる. 

最近では，ルネサステクノロジ（旧：日立製作所)/ 
ST マイクロの SH -5 が全面的に仮想アドレスキャッシ 
ュを採用した.すでに記述したように，仮想アドレス 
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命令実行パイプライン 


図14命令フェッチの自律機構 

キャッシュには，マルチタスク下において，同じ仮想 
アドレスで違う物理アドレスを指し示す場合がある 
(シノニムの問題）という欠点がある. 

一般的にはプロセス ID (タスク ID ) をキャッシュタ 
グに付加することでシノニムの問題を解消する手法が 
採られるが， SH -5 ではキャッシュミス時に TLB を参 
照し，その仮想アドレスに相当する TLB のェントリ 
を無効化する手法を採る.このためのペナルティは5 
クロックという.この数値が大きいか小さいかはキャ 
ッシュミスの頻度によるが，仮想キャッシュが高速化 
のために有効ということになれば，今後もシノニム解 
決のためのいろいろな手法が生まれてくるであろう. 

また，命令キャッシュに関しては，性質的にメモリ 
内容の変更を伴わないため，アクセスタイムが有利な 
仮想アドレスキャッシュが採用されるケースが増えて 
いるようである.つまり，ライトバックしないので， 
仮想アドレスに対応する物理アドレスが何であろうと 
あまり関係ない.キャッシュタグにプロセス ID を付 
加するか，タスク切り替え時に全ェントリを無効化す 
ることで，ほとんどの場合は事足りる. 

AMR 10 までの ARM プロセッサや SH -5 のほかに 
も，比較的新しいところでは， MIPS の Ruby ( R 20 K ) 
が命令キャッシュに採用された.データキャッシュは， 
MIPS の従来方式である，仮想インデックス/物理夕 
グである. 

• ビクティム (Victim =犠牲者)キャッシュ 

1次キャッシュ，特にダイレクトマップ構成の1次 
キャッシュのヒット率を向上させるしくみとしてビク 
テイムキャッシュがある.これは4〜5エントリから 
なる小規模のフルアソシアテイブキャッシュで，1次 
キヤッシュからリプレースで追い出されたキヤッシュ 


ラインを保持している. 

1次キャッシュを參照する際，ピクテイムキャッシ 
ュも同時に（あるいはビクテイムキャッシュを優先的 
に）参照して，そこにヒットすればピクテイムキャッ 
シュからデータを供給する.ピクテイムキャッシュの 
エントリは，基本的に LRU 制御をされ，1次キャッシ 
ュから追い出されたキャッシュラインはビクテイムキ 
ャッシュのもっとも參照されていないエントリに格納 
される.つまり，ピクテイムキャッシュは追い出され 
たキャッシュラインのうちで最近参照された4〜5ラ 
インを保持することになる.これらのラインは，直前 
にリプレースされた1次キャッシュのラインがもっと 
も最近參照されたものだが，それ以外では1次キャッ 
シュの他のラインよりも最近參照されたものである場 
合もある. 

図15にピクテイムキャッシュの構成を示す.一般 
に，キャッシュの参照はアドレスの一部をインデック 
スとして行うため，1次キャッシュの容量が少ないと， 
アドレスの競合が頻発して，同一のキャッシュエント 
リを追い出し合う傾向にある.このような競合を低減 
させるために，キャッシュのウェイ数を増加するとい 
う手段も採られるが，2ウェイ，4ウェイとするにつ 
れ，キャッシュの容量 （= 面積）が2倍，4倍となり， 
設計意図に反する場合がある. 

ピクテイムキャッシュを採用すれば，ある瞬間には， 
ダイレクトマップキャッシュの特定エントリが2〜5 
ウェイになったように機能するので，少ない面積の増 
加でヒット率を向上させることができる.ある論文に 
よれば， 4 K バイトのダイレクトマップ方式のキャッ 
シュに5エントリのビクテイムキャッシュを付加した 
ところ，アドレスの競合によるキャッシュミスが20 
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図15 

ピクテイムキャッシュ 
の構成 



〜95%減少したという. 

ピクティムキャッシュを実際に採用している製品と 
しては ， VIA Technologies の C 3 プロセッサがある. 
Intel や AMD が x 86 命令を RISC ライクの" OP に変換 
して実行する方式を採用しているのに対して， C 3 は 
x 86 命令を直接実行するプロセッサとして有名であ 
る. CISC のままでも性能は出せるという主張をして 
いるのだが，ベンチマークなどを見ると性能はお世辞 
にもい いとは いえない. 

それはともかく， C 3 は 64 K バイトの4ウェイ命令 
キャッシュと 64 K バイトの4ウェイデータキャッシュ 
を1次キャッシュとして内蔵し，さらに2次キャッシ 
ュとして 64 K バイトの4ウェイのピクティムキャッシ 
ュを装備する.これを一般的な2次キャッシュと比較 
すると容量が小さいのが気になるが，小さな容量でも 
ピクティムキャッシュとすること（メモリから直接リ 
フィルを行うことはなく，1次キャッシュから追い出 
されたデータのみを保持する）で性能向上をねらった 
ものであろう. 

2003年1月22日に VIA Technologies は Nehemiah 
( C 5 XL ) コアを使った C 3 シリーズの MPU を発表した. 
この新しい C 3 では L 2 キャッシュであるビクティムキ 
ャッシュが，従来の4ウェイから16ウェイに変更にな 
った.容量は 64 K バイトと変更はない.やはり，ビ 
クティムキャッシュはヒット率 （= 連想方式)が性能に 
効くということなのだろう. 

• イクスクルーシブ(排他的）キャッシュ 

イクスクルーシブ ( exclusive ) キャッシュとは AMD 
が T hunderbird や Duron ( Spitfire ) 以降に採用した キ 


ャッシュ構成である. 

従来，1次キャッシュと2次キャッシュは階層構造 
をもっており，2次キャッシュの内容の▲部分をキャ 
ッシュしたものが1次キャッシュであるという位置づ 
けだった.つまり，1次キャッシュにミスした場合， 
2次キャッシュにヒットすれば， MPU 外部のメモリ 
からデータを読み込むより高速に1次キャッシュに 
データをリフィルできる.データは，まず2次キャッ 
シュにリフィルされ，その後，1次キャッシュにリフ 
ィルされる.この従来方式を AMD はインクルーシブ 
( inclusive ) キャッシュと呼んでいる. 

イクスクルー シブキャッシュは，1次キャッシュと 
(MPU 内部の）2次キャッシュの内容を重複させない 
方式である.その動作原理は明らかにされてないが， 
キャッシュミス時に，1次キャッシュと2次キャッシ 
ュ（内部）の片方にしかリフィルしない.あるいは，い 
ったん2次キャッシュにリフィルされてから1次キャ 
ッシュの内容と交換される.具体的には，次のような 
動作ではないかと想像される. 

1) 1次キャッシュヒット 
そのラインが使用される. 

2) 1次キャッシュミス& 2次キャッシュヒット 

2次キャッシュのヒットしたラインが1次キャッシ 
ュの置き換え対象ラインと入れ替えられる.そして， 
そのラインが使用される. 

3) 1次キャッシュミス& 2次キャッシュミス 

2次キャッシュにリフイルされ，そのラインが1次 
キャッシュの置き換え対象ラインと入れ替えられる. 
そして，そのラインが使用される. 
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表 1 x 86 系 CPU の 
キャッシュ容量 


CPU コード名 

1 次キヤッシユ 

2 次キヤツシユ 

メーカ 名 

Thunderbird 

128K バイト 

256K バイト（内部） 

AMD 

Duron 

128K バイト 

64K バイト（内部） 

Prescott (Pentium4) 

12K"ops+16K バイト =32K バイト相当？ 

1M バイト（内部） 

Intel 

Northwood (Pentium4) 

12K//ops+8K バイト = 24K バイト相当？ 

512K バイト（内部） 

Willamette (Pentium4) 

12K"ops+8K バイト = 24K バイト相当？ 

256K バイト（内部） 

Tualatin (Pentium III) 

32K バイト 

512K バイト（内部） 

Coppermine (Pentium IE) 

32K バイト 

256K バイト（内部） 

Katmai (Pentium IH) 

32K バイト 

512K バイト（外部） 


格納された内容が重複しないので，キャッシュ容量 
が1次キャッシュと2次キャッシュを合わせた容量に 
等しくなる.インクルーシブキャッシュのキャッシュ 
容量は「(2次キャッシュの容量）± (1 次キャッシュの 
容量)」で平均的には2次キャッシュ（内部）の容量に 
等しいというのが AMD の主張である.容量が増加し 
た分，イクスクルーシブキャッシュでは，ヒット率が 
高いという計算である. 

表1 に x 86 系 CPU のキャッシュ容量を示す.実際に 
AMD の MPU をみると，相対的な2次キャッシュの容 
量が少ない.しかし，キャッシュミス時にメモリから 
リ フイ ルするためのペナルテイを考えると，単に1次 
キャッシュの容量が増えただけのような気がしないで 
もない. 

もともと AMD では ( Athlon 以降）1次キャッシュの 
容量が非常に大きい.1次キャッシュだけでインテル 
での2次キャッシュの半分の容量があるので，インテ 
ルとの相対性能を考えればこれで正解なのかもしれな 
い.表1に Intel の MPU のキャッシュ容量も示してお 
くので参照してほしい. Intel の1次キャッシュの容量 
はゴミみたいなもので，通常2次キャッシュの容量で 
チップ仕様が語られることが多い. 

ところで，イクスクルーシブキャッシュとビクテイ 
ムキャッシュ はどう違うのだろうか.おそらく同じ も 
ので ある. 事実， VIA Technologies の C 3 プロセッサ 
のデータシートでは，イクスクルーシブキャッシュと 
ピクテイムキャッシュを同一視している.もちろん， 
VIA のいうイクスクルーシブキャッシュと AMD のい 
う イクスクルーシブキャッシュが別物で あ ると いう可 
能性はあるが. 

• 動作周波数とキャッシュのヒット率 

ときどき，技術書を読むと「キャッシュ容量が少な 
いが，動作周波数が低いので， コスト/パフ オーマン 
スを考えれば納得できる」という表現を見かける.一 
見すると，キャッシュ容量と動作周波数に関係がある 


のか不思議に思う.しかし，これは次のようなことを 
言っている. 

MPU の動作周波数が高いほど性能が高い.これは 
ある意味正しいが，キャッシュのヒット率（与容量）を 
考えるとそうでもない場合がある. 

たとえば， MIPS 値が動作周波数の 1.6 倍の MPU-A 
と 1.0 倍の MPU - B を考える.ただし， MPU - A より 
MPU - B のほうがキャッシュの構造が優秀で，あるア 
プリケーシヨンを実行したときのキャッシュヒット率 
は， MPU - A が40%, MPU - B が80%とする.ここで， 
MPU のバスクロックが 133 MHz 固定で，それぞれのコ 
アの動作周波数としてバスクロックの2倍 (266 MHz ) 
と3倍 (399 MHz ) の場合を考えてみよう. 

この場合，それぞれの実質的な MIPS 値は，フェッ 
チバイパスを行う（キャッシュリフイル時の性能はバ 
ス速度に律速される）と仮定すれば次のようになる. 

• MPU - A /266 MHz 動作時 

(1 - 0.4) x 133 + 1.6 x 266 x 0.4 = 250.04 MIPS 

• MPU - B /266 MHz 動作時 

(1 - 0.8) x 133 + 1.0 x 266 x 0.8 = 239.40 MIPS 

• MPU - A /399 MHz 動作時 

(1 - 0.4) x 133 + 1.6 x 399 x 0.4 = 335.16 MIPS 

• MPU - B /399 MHz 動作時 

(1 一 0.8) x 133 + 1.0 x 399 x 0.8 = 345.80 MIPS 
つまり，キャッシュミス時 （1- キャッシュヒット率 
の部分）はバスクロックの速度 （133 MHz ) で動作し， 
キャッシュヒット時はコアの周波数 （266 MHz または 
399 MHz ) で動作すると考える. 

このとき，コアの動作周波数が 266 MHz の場合は 
MPU - A のほうが性能が良い.しかし 399 MHz になる 
と MPU - B のほうが性能が良い.この結果を見る限り， 
動作周波数だけでは性能を論じることができず，そこ 
にはキャッシュのヒット率が大きく関与することがわ 
かる. 

この結果を一言でいうと，動作周波数が低いときは 
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図 16 MC 68020の命令 
キャッシュ 


命令プリフェッチアドレス 



命令の供給能力（与バス速度）の影響を受けにくい•つ 
まり，ヒット率が低いことにより発生するキャッシュ 
リフィルの性能への影響が少ない.逆に動作周波数が 
高くなるほど，命令の供給能力が性能の足を引っ張る 
ということである. 

^美際のプロセッサの 
羞|キャッシュ構成 

• MC 680 X 0 でのキャッシュ構成 

MC 680 x 0 シリーズでは MC 68020 でキャッシュが内 
蔵された.ただし，命令キャッシュのみである.その 
構成を 図16 に示す. 256バイトのダイレクトマップ方 
式で，1ラインは1ワード (4 バイト）の容量をもつ物理 
アドレスキャッシュである.タグ部には機能コードの 
ビット2(ューザー/スーパバイザの表示）も含まれ， 
タグの比較時にアドレスと同時に比較される . MC 
680 x 0 では同一の物理アドレスでも機能コードによっ 
て物理空間が区別されるからである. 

MC 68030では命令キャッシュに加えて，データキ 
ャッシュも内蔵された.図 17 に MC 68030のデータキ 
ャッシュの構成を示す. 256バイトのダイレクトマッ 
プ方式で，1ラインは4ワード （16 バイト）の容量をも 
つ物理 アドレス キャッシュである.書き込み制御はラ 
イト アロケート 可能なライト スルー 方式である.1 
ワードの容量が MC 68020 に比べ4倍に拡張されてい 
る.本来なら1ラインに1ビッ ト あれば十分なバリッ 


ドビットがワードごとに用意され，全部で4ビットあ 
るのが特徴である.キャッシュのリフイルを1ワード 
単位でも4ワード単位(バースト転送）でも行えるよう 
な設定が可能なためであろう.なお，命令キャッシュ 
もまったく同じ構成をしている. 図18 に MC 68030の 
キャッシュ制御レジスタ （ CACR ) を示す.この図を見 
ればわかるが，キャッシュロック(凍結)も可能である. 

MC 68040ではキャッシュ構成ががらりと変更され 
た. 図19 にそのキャッシュの構成を示す. 4 K バイト 
の4ウェイセットアソシアテイブ方式で，1ラインは4 
ワードの容量をもつ仮想インデックス物理タグキャッ 
シュである.書き込み制御は MMU でページ単位にラ 
イトスルー（ライトアロケートはしない）方式とライト 
バック方式を選択できる.リプレースメント方式はラ 
ンダムである. 

図20 に命令キャッシュ， 図21 にデータキャッシュ 
のライン構成を示す.バリッドビットはラインに1ビ 
ットのみとなった.不思議なのは 図20 でワード単位 
にダーテイビットが用意されている点である.リフイ 
ルやライトバックはライン単位に行う（バリッドビッ 
卜が1ビットしかないため）のでラインごとに1ビット 
あれば十分なはずなのだが.おそらく，ライトのバス 
サイクルを減らすために，真にダーテイなワードのみ 
をライトバックするためなのだろう.これにより，ラ 
イトバスサイクルの節約になる. 

図22 に MC 68040のキヤッシュ制御レジスタを示 
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LA 3 卜 
LAI 2 


PA 3 卜 
PA 12 


図19 

MC 68040の命令 
キヤ ツシュ 


WA : . フイトア□ケート 旧 E :命令ノ〈ーストイネーブル 

DBE :データバーストイネーブル CI :命令キャッシュのクリア 

CD :データキャッシュのクリア CEI :命令キャッシュの中のエントリのクリア 

CED :データキャッシュの中のエントリのクリア FI :命令キャッシュの凍結 

FD :データキャッシュの凍結 EI :命令キャッシュのイネーブル 

ED :データキャッシュのイネーブル 

図18 MC 68030のキャッシュ制御レジスタ （CACR) 
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図17 MC 68030の命令キャッシュ 
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図20 MC 68040 の命令キヤツシュの 
ライン構成 


TAG 

V 

LW3 

LW2 

LW1 

LW0 


TAG : 22 ビットの物理アドレス情報 

V: バリッドビット 

LW" : 32 ビツ トの データ エントリ 


TAG 

V 

LW3 

D3 

LW2 

D2 

LW1 

D1 

LWO 

DO 


TAG : 22 ビットの物理アドレス情報 
V: バリッドビット 
LW/?: 32 ビッ トのデータエントリ 
D /?： LWW こ対応するダーティビット 
INVALID : not V 

図 21 MC 68040 のデータキャッシュの VALID(Clean) : V and(not DO)and(not D1)and(not D2)and(not D3) 

ライン構成 DIRTY : V and(D0 or D1or D2 or D3) 


31 

30 16 

15 

14 0 

DE 

000000000000000 

IE 

000000000000000 


図 22 MC 68040 のキャッシュ制御 
レジスタ 


DE : データキャッシュのイネーブル 
IE : 命令キャッシュのイネーブル 


す.それぞれのキャッシュのイネーブル（許可）ビット 
しかなく，キャッシュロック機能はなくなったもよう 
である. 

• i 486 のキャッシュ構成 

i 486 のキャッシュは， 8 K バイトの容量をもつ4ウ 
エイセットアソシアテイブ構成の物理アドレスキャッ 
シュである.図23に i 486 のデータキャッシュのブロ 
ック図を示す.データキャッシュの書き込み制御はラ 
イトスルーで，リプレースは疑似 LRU で行う.また， 
ライトアロケートは行わない.すなわち，リードミス 
でのみキャッシュをリフイルし，ライトミスではキャ 
ッシュをリフイルしない. 

i 486 のキャッシュ にはバススヌープ機能がある.プ 
ロセ ッサ バスに キャッシュ ラインインバリ デーシヨン 
が発生すると，アドレスバスが示すアドレスに一致す 
るエントリを無効化する. 

• R 4000 のキャッシュ構成 

MIPS R 4000のキャッシュは， 8 K バイトの容量を 
もつダイレクトマップ構成の仮想アドレスインデッ 
クス，物理タグキャッシュである.図24に R 4000の 
データキャッシュのブロック図を示す.書き込み制御 
はライトバック方式で，リードミスまたはライトミス 
でキャッシュラインをリフイルする.キャッシュミス 
発生時，リフイルされるエントリのダーテイビットが 


1なら，リフイル前に，古いキャッシュラインをメモ 
リまたは2次キャッシュにライトバックを行う. 

R 4000にもキャッシュのスヌープ機構がある.アド 
レスを指定して無効化を行うインバリデートプロトコ 
ルと，ラインの内容を更新するアップデートプロトコ 
ル（これは R 4000 MC / R 4400 MC のみ）がある. 

MIPS 系のプロセッサはダイレクトマップ方式を採 
用していることが多い. 2ウェイセットアソシアテイ 
ブキ ャッ シュは ハイエン ドの R 5000や R 10000 でしか 
採用されていなかった.最近では2ウェイセットアソ 
シアテイブ方式のものが増えてきているが，4ウェイ 
はまだ珍しい.最近では Ruby ( R 20 K ) が4ウェイセッ 
トアソシアテイブを採用しているのみである.ただし， 
MIPS 社が提供する IP コアである Jade (4 Kc ) や〇 pal 
(5 Kc ) は1ウェイ（ダイレクトマップ）から4ウェイま 
での構成を選択できるようになっている.とはいえ4 
ウェイ構成では消費電力が多くなるので，ウェイ予測 
などを行って電力を削減する工夫をしないと，組み込 
み用途には向かない. 

ちなみに， Ruby はウェイ予測を行っている.また， 
最新の IP コアである 24 K ( Topaz ) は性能重視で4ウェ 
イ構成のみになった . MIPS R 4000のキャッシュを4 
ウェイアソシアテイブ方式にすると， MC 68040のキ 
ャッシュ構造に近くなる. 
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1211 


32X4 

ビット 12 〜 14 がインデックス (/ V ) 
0 


仮想アドレス 


注）仮想ページ番号と 
インデックスは 
ビット12が重複 
している 


図24 R 4000のデータキャッシュ構成（ページサイズ 4 K バイトの場合） 


まとめ 

主として， MPU に内蔵されているキャッシュの概 
要を述べてきた.キャッシュの動作を少しでも理解し 
ていただければ幸いである.なお本章は，マルチプロ 
セッサ構成時のキャッシュの動作については複雑にな 
るので意図的に省いている. 

ところで，本章ではウェイセットアソシアテイブ 
における/!個のダイレクトマップ形式のキャッシュを 
指すものとしてウヱイという表現を使ってきたが，本 
来の意味が h 通りのセット」ということを考えると 


「セット」といったほうが正確かもしれない.まあ， 
ウェイと表現するのは筆者の職業病 （?!） なので勘弁願 
いたい.また，ダイレクトマップという表現も正確に 
はダイレクトマップトである. 

ところで，最近ではキャッシュのことを CASH (現 
金）との洒落で$と記述することも多い （¥ でないとこ 
ろが米国発祥の洒落であることを感じさせる）.たと 
えば，命令キャッシュやデータキャッシュは，それ 
ぞれ，1$, D $ と略記されることもあるので覚えてお 
こう. 



バリッド 

図23 i 486 のデータキャッシュ構成 


物理アドレス 


ダー丁イ 
ビット 


パリッド 
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タグ部 
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システムオンチップ時代のデバッグ手法 

エミユレ_シヨン機能の基礎 


ほとんどの MPU がもっていてマニュアルには通常 
記載されていない機能に，エミュレーシヨン機能があ 
る（デバッグ機能ともいう）. 

ほかのアーキテクチャの命令コードを実行すること 
もエミユレーシヨンというが'，ここではデバッガであ 

る ICE ( In_Circuit Emulator ) を実現する機能のことを 
指す. 

• ICE とは 

ICE とは，一言でいうとデバッガである.しかし， 
いわゆるソフトウェアのみで実現されている GDB の 
ようなデバッガと違い，リアルタイム（実時間）エミュ 
レーシヨンが可能である.これは，実チップをターゲ 
ットシステムに実装してエミュレーシヨンを行うこと 
により，実デバイスと同じ AC 特性や DC 特性を実現 
したままのデバッグを可能にするものである•つまり， 
実チップと同じタイミングや環境でデバッグができる. 

ICE は，実チップの代わりに専用プローブを実際の 
ボードに差し込むことで，実チップの動作をエミュ 
レートする（図 A ). ユーザーからは， ICE というシス 
テムが 一つの 実チップに見える. 

その昔(今でも？）， ICE は高価だったので，それを 
代替する手段もいくつか考えられている.たとえば， 
ロジックアナライザ（ロジアナ）をエミュレータの代わ 
りにデバッガとして使う手法などである.ロジアナで 
取り込んだバスサイクルを逆アセンブルして，実行す 
る命令列を表不するソフトウヱアはけっこう活用され 
ていた.しかし，この手法は ICE にはかな 
わない. 

• エミユレーシヨン機能とは 

エミュレーシヨン機能とは， ICE を実現す 
るために MPU が提供する機能のことであ 
る.デバッグ機能ともいう.具体的には， 

アドレスやデータの値によるトラップ機能 
(ハードウェアブレーク）や命令実行の卜 
レース機能を指す. MMU を内蔵する MPU 
では仮想アドレスを出力する機能もある. 
ハードウェアブレークとは，ブレークボイ 


ント命令をプログラムに埋め込んで，そこを通過した 
場合にブレークする，ソフトウェアブレークとは対称 
的にハードウェア自身が備えるブレーク機能のことで 
ある. 

エミュ レー シヨン機能を実現するためには専用端子 
が必要なので，通常のチップ(通称本チップ）よりも端 
子数を増やしたエバリュエーシヨンチップ(通称エバ 
チップ）が製造される場合もあるが，基本的には本チ 
ップとエバチップは同一のダイ（チッブ）であること 
が多い.つまり，外部端子に接続されていないだけで， 
ユー ザ ーが 手にする本チップもエミュ レー シヨン機能 
を内蔵している.しかし，その機能の使い方を知る方 
法はない.エバチップは， ICE メーカーに対して出荷 
される専用チップである. 

最近の流行は，エバチップを作らず，本チップにェ 
ミュレーシヨン機能を内蔵させることである.この場 
合は，ユーザーがその機能を使おうと思えば使うこと 
も可能である.ただし，エミュレーシヨン機能の詳細 
は ICE メーカー以外には公開されないのが普通なの 
で，現実にユーザーが利用するのは難しい. 

• フォアグラウンドモニタとバックグラウンドモニタ 

GDB などの通常のソフトウェアデバッガと ICE と 
が決定的に異なるのは，制御プログラムがユーザーの 
資源を占有するか否かである•ソフトウヱアデバッガ 
は ユーザーの メモリ空間にロードされ， 一つの タスク 
として目的のプログラムをデバッグする.しかし， 



図 A ICE の構成 
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ユーザー空間 空間 ICE 空間 



( a ) バックグラウンドモニタ 


図 B バックグラウンドモニタ/フォアグラウンドモニタ 
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への復帰命令 



( b ) フォアグラウンドモニタ 


ICE は，制御プログラムのためにユーザーのメモリ空 
間を必要としない.これは，より現実に近い環境でプ 
ログラムをデバッグできるという利点のほかに，ブラ 
ットホームの立ち上げ時，つまりボードに ROM や 
RAM がまだ実装されていない段階でも，プログラム 
を実行することができるという利点がある. 

ICE は二度美味しい.ボード設計の段階ではハード 
ウェア屋が， ROM や RAM ， あるいは外部 I / O などに 
正常にアクセスできるかという，ボードのハードウェ 
アのデバッグに使用できる. ROM や RAM 上にプログ 
ラムが存在する必要はない.ボードが完成したあとは， 
ソフトウェア屋がソフトウェアをデバッグするのに使 
用できる.ソフトウェアのデバッグにおいては，ソフ 
トウェアデバッガで十分という意見もあるかもしれな 
い.しかし， ICE を使えば，ブレークポイント命令を 
埋め込むことのできない ROM 領域でブレークさせる 
こともできるし，ある特定のアドレスに対してロード 
やストアを行った場合にブレークさせることもでき 
る.あるいは，実時間で命令実行のトレースを行える. 

さて， ICE の制御プログラム（モニタプログラム）は 
ユーザー空間とは別の空間に置かれる.これは，ハー 
ドウェア ブレーク 発生時に，専用端子を活性化する. 
要するに，ハードウェア的にアドレス空間の切り替え 
を行うことで実現される〔図 B ( a )〕. あるいは，モニ 
タプログラムを実行するための特殊な空間が MPU に 
内蔵されている場合もある.このような方式をバック 
グラウンドモニタと呼ぶ.簡易的な ICE では，モニ 
タプログラムを ユーザー 空間に置く場合もある〔図 B 
( b )〕. このような方式をフォアグラウンドモニタと 
呼ぶ. 


籲キャッシュ非内蔵時のエミュレーシヨン機能 

MPU の提供するエミュレーシヨン機能は， MPU が 
キャッシュを内蔵しない場合と内蔵する場合で若干異 
なる.まずは，キャッシュを内蔵しない MPU が提供 
する，一世代前のエミュレーシヨン機能について解説 
する. 

(1) アドレストラップとデータトラップ 

これは， MPU がアクセスするアドレスを指定して 
トラップを発生させる機能である.トラップが発生し 
た後，制御は ICE のモニタプログラムに移る. 

キャッシュを内蔵しない場合，すべてのアクセスは 
外部バスに出力される.このため，バスサイクルを監 
視する機構を設けておけば，アドレストラップを実現 
するのは難しくない.目的のアドレスやデータが出力 
されたら， ICE 空間に移行させるための強制ブレーク 
機能を MPU が備えていればよい. 

より細かい条件でトラップを発生させるためには， 
現在起動されているバスサイクルの種類を表示するス 
テータス出力があればよい. 

(2) ステップ実行 

1命令ずつ実行しながら，レジスタ内容やステータ 
スを表示する機能である.この機能は，アドレストラ 
ップを次の命令のアドレスに設定することで実現する. 

(3) 仮想アドレス出力 

本チップには，端子数の制限から仮想アドレスを出 
力する機能はない.しかし，エバチップには，物理ア 
ドレスと同時に仮想アドレスを出力する機能がある. 

専用のエバチップなしで仮想アドレスを出力するた 
めの手法としては，バスサイクルごとに仮想アドレス 
と物理アドレスを時分割で出力することが考えられ 
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る.しかし，本チップでは仮想アドレスの出力を行わ 
ないため，本チップとエバチップ（もしくはエミュ 
レー シヨン モー ド）でタイミングに差異が出るという 
欠点がある. 

(4) トレース機能 

トレース機能は，ブログラムのデバッグには非常に 
有用な機能であるが，実現は難しくない.数十 MHz 
以上で変化する MPU の状態をリアルタイムでュー 
ザーが認識することは不可能なので，トレース機能は 
ある程度までを実行した後に，そこまでの実行履歴を 
調べる場合に使用する.したがって，バスサイクルの 
出力をそのまま保存しておくことができれば，あとは 
ソフトウェアでどうにでもなる.つまり， 

•バスをトレースし，外部バッファに蓄える 
•そのデータを逆アセンブルなどの加工を施して表示 
する 

という手順で行うことができる.どの程度の命令数を 
ト レースで きるかは外部 バッファの 容量による. 

(5) 分岐トレーストラップ 

プログラムをデバッグ するときに有用なのは，サブ 
ルーチンなど，命令の流れが不規則に変化する時点を 
認識することである.分岐の履歴を調べれば， プログ 
ラムの 大まかな流れを知ることができる. 

この機能を実現するために，分岐トレーストラップ 
を提供する MPU もある.これは，分岐が発生した時点 
でトラップを発生させる機能である.ただ，分岐でい 
ちいちトラップを発生させていると，プログラムの動 
作が実時間で動作させた場合と異なるのが欠点である. 

(6) シーケンシャルブレーク 

シーケンシャルブレークとは，その名のとおり，あ 
るトラップ条件が成立した後に別のトラップ条件が成 
立するとき，初めてトラップさせる機能である.この 
機能は，トラップ発生時に ICE の実行を止めるか否か， 
ICE のモニタプログラムで制御することで実現可能で 
ある.つまり，1回目のトラップが発生すると，その 
ことを記録しておき，そのまま ューザー プログラムに 
制御を戻す.そして，再びトラップが発生したときに， 
その旨を ューザーに 表示すれば よい. 

ソフトウェア制御できるため，一見 MPU が持つま 
でもない機能と思えるが，プログラムの動作を実時間 
で動作させた場合と一致させるためには必要な機能で 
ある. 

• キャッシュ内蔵時のエミュレーシヨン機能 

キャッシュの内蔵は， MPU の性能に飛躍的な向上 


をもたらした.しかし， ICE にとっては嬉しいことで 
はなかった.なぜなら，従来 ICE が拠り処にしていた 
バスサイクルが発生しなくなったからである. 

たまに発生する バス サイクルも，ほとんどが'キャッ 
シユリ フイ ルのための バス サイクルで， バス サイクル 
とそれを発生させた命令を1対1に関連付けることは 
難しい.このため，キャッシュ内蔵を当たり前とする 
RISC プロセッサ用の ICE は，いつまで経っても実用 
的なものが登場しなかった. 

当初 RISC は，ワークステーション など ハイエンド 
の分野でしか使用されていなかった.この分野のデバ 
ッグは，昔ながらのロジアナで波形観測を行うのが普 
通であり， ICE の必要性を訴える人は少なかった.ま 
さに職人芸の世界である.しかし， RISC が組み込み 
制御にも使われるようになると ICE の要望が高まって 
きた.組み込み分野では，従来から ICE を使用してデ 
バッグを行っていたので， 「 ICE のない MPU なんて使 
えない」という意見が多数派だったのだ. 

このような事情もあって，キャッシュ内蔵の MPU 
では，エミュレーション機能を実現するために新たな 
機能を内蔵することが必要になった.たとえば， 
Motorola が DragonBall や ColdFire シリーズに内蔵し 
た BDM(Background Debug Mode ) がそれである. 
BDM は， CPU のマイクロコードでデバッグ命令を実 
装し，専用のデバッグ端子を外部にもたせて，専用の 
ケーブルでデバッガと交信するしくみになっている. 

(1) ハー ドウ エアブレーク 

従来， ICE がバスサイクルを観測することで実現し 
ていたアドレストラップ，データトラップという機能 
を MPU に内蔵するようになった.従来も，アドレス 
トラップ機能を内蔵し， RQM 領域でもブレークボイ 
ントを設定できることを売りにする MPU はあった 
が，ロードやストア時の データの 値を指定してトラッ 
プさせる機能をもつものはほとんどなかった. 

MPU は，ユーザーが使用するアドレストラップの 
ほかに， ICE 専用のアドレストラップやデータトラッ 
プ機能を提供するようになった. 

トラップ発生時の ICE 専用空間への移行も ， MPU 
が サボート する. 

(2) トレース機能の実現 

トレース機能も，従来は ICE が外付けで実現してい 
た機能を MPU 内に取り込むことで理論上は可能であ 
る.しかし，それは MPU 内部に巨大なトレースバッ 
ファを内蔵することを意味する. 
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ICE 以外では使用しない機能で，チップの面積を増 
太させるのは好ましいことではない.そこで，最小限 
のハードウエアで トレース 機能を実現する方式がいろ 
いろ考案された.その基本原理は，分岐が発生したこ 
とを検出する点にある.従来一部のエバチップで採用 
されてきた分岐トレーストラップ機能はとくに有用で 
ある. 

トレーストラップ機能に加え，分岐時に分岐先の仮 
想アドレスを出力できれば，ほぼ完全に命令実行を卜 
レースできる.しかし，この仮想アドレスの出力とい 
うのが難問である.従来のエバチップでは，余分な端 
子数を追加することで実現していた機能である.たと 
えば本チップに，32本の仮想アドレス端子を追加す 
ることは不経済である.そこで考案されたのが，4本 
程度の専用端子を追加し，時分割で仮想アドレスを出 
力するという方式である. 32ビットなら8回に分けて 
出力する.この方式の欠点は，分岐が連続して発生す 
ると，仮想アドレスの出力が命令実行に追いつかなく 
なり，情報が失われることである.しかし， RISC の 
初期の ICE では，ないよりはまし，という割り切りで 
採用されていた. 

もっとも最近の RISC では，ト レース 出力が間に合 
わない場合は，ストール(一時停止)要求を外部回路か 
ら与えて待ち合わせをする機能があるようだが. 

実際，トレース機能の実装はいろいろな制限から難 
しいことが多く，ハードウエアブレークだけで ICE が 
作られることも多い.バックグラウンドモニタ機能を 
提供すれば，ハードウエアブレークしかできなくても， 
そこそこ使える ICE を構成できる. 

• JTAG を利用したデバッガ 

JTAG は，国際標準規格 IEEE 1149.1 として普及し 
ている. JTAG は，機能の名称ではなく，この規格化 
作業を推進したグループの名称である.機能の名称は 
「バウンダリスキヤン」である. IEEE の標準では， 
バウンダリスキャンアーキテクチャとそれにアクセス 
するための シリアル ポート（通称 JTAG ポート）が規格 
化されている.この JTAG ポートは，本来，ボードの 
テスト用に考案されたものであるが，そのインターフ 
エースを MPU のデバッグ機能に利用することが考え 


られている. 

従来の ICE では，専用のデバッグ端子を MPU に装 
備する手法が採られていたが，現在は JTAG を利用す 
る方法が主流である. JTAG は，もともとチップの回 
路テスト用に開発されたバウンダリスキヤンのテスト 
手法である. JTAG の回路と外部テスト端子を利用し， 
デバッグ回路を追加することによりシステムのデバッ 
グを行うのである. 

JTAG を利用したデバッグ機能の拡張は，各社独自 
の仕様により行われている.こうしたオンチップデバ 
ッグ機能には， NEC の N - WIRE，MIPS Technologies 
社の EJTAG(Enhanced JTAG ), Motorola 社の COP 
(Common On Chip Processor ) などがある.本質はど 
れも似たようなものである.本来， N - WIRE というの 
は ， ICE メーカーである HP が提唱した JTAG を使つ 
たデバッグ機能であり，その意味では NEC 固有の規 
格ではない气 

ICE の短所は，ソフトウェアデバッガに比べて非常 
に高価な点である.従来品は，100万円を超えること 
も珍しくなかったが， JTAG を利用したデバッグ機能 
は， MPU 内にデバッグ機能を内蔵し，外部とのイン 
ターフェースを最小限の端子本数 (5 〜15本程度）に抑 
ることで安価 （30 〜50万円）な ICE 構築を目指すもの 
である. 

JTAG と同時に用いられるオンチップのデバッグ機 
能は，従来と大差ないハードウェアブレークとトレー 
ス補助機能である.それを， JTAG という標準的なシ 
リアルインターフェースでアクセスすることで ， ICE 
のハードウェアの共通化を図ることができる•つまり， 
JTAG の先のデバッガ本体は， MPU の種類が変わっ 
ても同一のものを用いることができる （図 C ). 

JTAG の ICE では，従来の ICE とは異なり ， MPU 
自体がデバッグ機能を内蔵するので，エバチップは不 
要である.ボードテスト用の JTAG 端子をデバッガに 
接続することでデバッグが可能になる. 

• JTAG デバッガの実現例 

JTAG デバッグ 機能を有する MPU の一般的な構造 
を 図 D に 示す. このように， MPU のデバッグユニッ 
卜 はバックグラウンドモニタ（ハードウェアブレーク 


注： N - WIRE は東芝の MIPS RISC である R 3900に初めて搭載された.東芝と YHP (横河 • ヒューレット.パッカード）が開発した規格 
で，#本の信号線から構成されるので，そう命名された.その後， HP が JTAG 仕様に変更し，さらなる拡張を行って現在の形にな 
った.このとき，ハードウェアブレーク部とトレース部 （ N - Trace ) が分離された.つまり，トレース機能のないものも N - WIRE と 
呼ぶ. NEC や ARM も採用しているが， ARM は N - Trace と呼んでいる.また，日立の SH -3/ SH -4 に採用された H-UDI (Hitachi User 
Debug Interface ) も同様の形式であるらしい. 
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388 BE 


ン機能の基礎 


機能と モニタ 機能）とト レース 制御か 
ら構成される. 

MPU が 提供す る ハー ドウ エアブレー 
ク機能は直感的に理解しやすいが， 卜 
レース 機能が実現される方法 は 興味深 
い.ここでは， JTAG ICE(N-WIRE) 
における トレース 機能と モニタ 機能の 
実現方法を簡単に説明する. 

(1) ト レース パケット 

命令や データのトレースは，トレー 
スバケットと呼ばれる数種類の情報 
を， JTAG を通じて数ビットずつシリ 



図 C JTAG ICE の構成 


アル出力することで実現する.トレースパケットは 
MPU 内部で生成される.トレースパケットの例を図 
E に示す（実際のものとは異なる）.これは，パケット 
の種類を判別する TRCODE と，それに付随する情報 


スバッファのために多くの容量を必要とし，これが 
MPU 内にトレース機能を実装する足枷となることが 
多い.このため，トレースバッファを MPU の外部メ 
モリとしてサボートする場合 （MIPS の EJTAG など） 


で構成される. 

これらのトレースパケットは，アドレスの一致情報， 
分岐や例外の発生情報，その分岐先アドレスや分岐元 
アドレス，例外コードを示す.必然的に分岐に関する 
情報が多い.あとは，外付けの ICE がトレースパケッ 
卜を取り込んで，従来どおりのトレース表示を行う. 

通常， ICE は低いクロックで動作している.反面， 
MPU は非常に高速なクロックで動作する.トレース 
機能は高速な MPU の状態をパケットにして出力する 
ものであるから， ICE がそれを取り出して処理するた 
めには，速度差を緩衝するバッファが必要である.ま 
ともなトレース機能を実現するためには，このトレー 


もある.この場合は， MPU の動作クロックをあまり 
高速にできないのが欠点である. 

MPU によっては，トレースバケツトの出力が間に 
合わない場合は，外部からウェイト信号を入力して， 
出力を待ち合わせすることができるものもある.しか 
し，この場合は MPU の動作が停止するので，実環境 
と同じ実時間でのトレースにはならない. 

ARM 社では，トレースパヶットの情報量を低減し， 
転送速度を向上させるために ETM(Embedded Trace 
Macrocell) と呼ぶ圧縮回路を提供する. ETM には 
Large, Medium, Small といった種類があり，トレー 
スのバケツト量と速度に適した回路を選択することが 


図 D JTAG ICE の動作 
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図 E 

ト レース バケツトの例 


7 〜 4 3 〜〇 


0000 

N 0 P 

7 〜 4 3 〜〇 

発生要因 

MATCH 


15〜 8フ 〜 4 3—〜_0 

例外]-ド'1 0000 EXTD 


47〜40 39 〜_8 一 〜—4 3 _ 〜_ 〇 


タスク〇 

分岐先仮想アドレス 

分岐の種類 

JMPD 

47〜40 39 〜 8フ 〜 43 〜〇 

タスク ID 

分岐元仮想アドレス 

分岐の種類 

JMPS 


55〜52 51〜48 47〜40 39 _〜_8 7一〜 —4 3 _〜_0 


0000 

現分岐種類 

タスク ID 

仮想アドレス 

元分岐種類 

JMPDS 


55〜52 51 44 43 _ 〜211 〜_4 3一〜 0 


分岐種類 

タスク ID 

仮想アドレス 

元分岐の例外コード 

JMPES 


87_〜_24 23 22〜1514〜 一7 6一〜—4 3 〜_0 


データ値 

ENDIAN 

アドレス 

バイトイネーブル 

種類 

DATAW 


できる.トレースポートのビット幅も4ビット，8ビ 
ット，16ビットから選択できる.さらに， マルチコ 
ア SoC 向けのトレース機能として， CoreSight テクノ 
ロジを提唱している.これは，従来の ETM を改良し 
て， マルチコア 対応にしたものである.非同期（異な 
る周波数）で動作する各 コアに 専用の ETM を備え， 
トレース フアン ネルというセレクタで非同期に パケッ 
卜を排出する. 

ETM にはいろいろなバージヨンがあり，第3版の 
ETMv 3 では最初の ETMvl と比べると，命令トレー 
ス圧縮率は700%に，データトレース圧縮率を25%改 
善したとしている. 

CoreSight で特徴的なのは，内部 バス （ AHB ， AXI ) 
をトレースするための規格を提供していることであ 
る. AHB トレースマクロセル （ ATM ) で，内部バス状 
況を監視できる.これは，ソフトウェアでの最適化用 
の意味が大きい(バスの使用効率を最大にする）.また， 
通常の ETM と同様に，クロストリガ（ある値になる 
とデバッグ割り込みを CPU コアに 通知する）を持ち， 
バス の状況によって CPU コアに ブレークをかけるこ 
とが可能である. 

また， CoreSight は低価格用にシングルワイヤ （1 本 
線）のデバッグを可能にする.実行制御用1本と卜 
レース出力用1本の計2本で ICE を構成できるらしい. 

(2) モニタ機能 

デバッグ機能を有する MPU はモニタ空間を内蔵す 
る.つまり，デバッグ機能を実現するプログラム（モ 


二タプログラム）はモニタ空間で実行される.しかし， 
4 K バイトや 8 K バイト程度のモニタブログラムのため 
のデバッグ専用メモリを内蔵するのは不経済である. 
そこで考案されたのが，一つのモニタ機能を1〜8命 
令程度で実行するものとし，その命令分の実行領域の 
みを内蔵する方式である.この領域をモニタ命令レジ 
スタと呼ぶ.このレジスタは，1回に連続実行する命 
令の数だけ存在する（たとえば8本).そして，具体的 
には，次のような手順でモニタ命令レジスタの内容を 
実行する. 

1) アドレストラップやハードウ エアブレーク などで 
モニタ空間に移行する 

2) 命令実行が自動的に停止する 

3) JTAG を経由して，モニタ機能を実現する1〜8命 
令程度の命令列を，モニタ命令レジスタに書き込む 

4) JTAG 経由で命令実行を許可する 

5) モニタ命令レジスタの内容が実行され，実行が終 
わると命令実行が停止する 

6) モニタ命令レジスタの実行結果は一時的なレジス 
夕に格納され，その値を JTAG 経由で取り出し実 
行結果などの表示を行う 

7) 3) 〜 6) の処理を繰り返す 

8) モニタ空間から抜け出すための命令をモニタ命令 
レジスタに書き込む 

9) JTAG 経由で命令実行を許可する 

10) 制御はユーザープログラムに移る 
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ここでは Windows や Linux など，仮想記憶を使う場合に必須となる MMU について解説する.通常は仮想記憶を 
使わないことの多い組み込み用途であっても，信頼性の高いシステムを構築するために MMU のメモリ保護機能を 
使う場合もある.ここでは，アドレス変換 ， TLB (Translation Look-aside Buffer ), PTE (Page Table Entry )， メ 
モリ保護機能について解説したあと， 680 x 0 系や x 86 系， MIPS や PowerPC の MMU について解説する. 

I 關，___1__黼_謂 __明. . . . 


MMU とは Memory Management Unit の略語であ 
る.つまり， メモリ 管理 ユニットの ことで， MPU の 
外部または内部にあって仮想記憶機能を実現する•単 
に C 言語などでプログラミングするだけなら，仮想記 
憶の知識などはほとんど必要ない.しかし，プログラ 
ムサイズが一昔前に比べてはるかに巨大化しており， 
またマルチタスクが当然のように行われている昨今， 
その裏方には MMU という「働き者」がいることを心 
に留めておいてほしい. 

7仮想記憶とは 

• 仮想的に広大なメモリを用意する 

その昔，まだメモリが高価だった頃，コンピュータ 
に実装できるメモリ容量はわずかなものだった.時と 
してアプリケーションプログラムの容量は実際の物理 
メモリの容量を超え，そのようなプログラムを動作さ 
せるためにはアプリケーションプログラム側で細工す 
る必要があった. 

プログラムの 性質として見る と， ある瞬間瞬間に実 
行されているのは全体の一部分にすぎない.そこで， 
プログラムをいくつかのブロッ クに分割し，必要な部 
分だけをメモリにロードして実行させ，不要になった 
らその ブロックを 補助記憶装置（多くの場合，ハード 
ディスク）に退避し，代わりに ほかの 必要な ブロック 
を 補助記憶装置から取り出して，新しい ブロックと 入 
れ替えるしくみが必要になる（図 1). しかし，実装さ 
れている物理メモリの容量を考慮しながら プログラミ 


ングをするのは効率的でないし，物理メモリの容量が 
変化すると，同じブログラムが使用できなくなってし 
まろ. 

そこで，このようなメモリ管理を〇 S に任せるしく 
みが考案された.これが仮想記憶の原点である.仮想 
記憶を利用すると，ユーザーは物理メモリを意識する 
ことなく，物理メモリの容量を超えるような巨大なプ 
ログラムを実行できる. 

• マルチタスクを実現する 

PC はもとより，現在では規模の大きな組み込み機 
器は，そのほとんどがマルチタスクで動作している. 
マルチタスクとは，複数のタスク（プログラム）を同時 
に物理メモリに置き，ある決められた順番に少しずつ 
(その多くは時分割で)実行していくものである.この 
場合，各タスクが必要とする全部の領域を物理メモリ 
に割り.当てようとすると，メモリに入りきらなくなっ 
てしまう.物理的に限られた容量しかないメモリを， 
多くのタスク間で分割して使用する手段が必要であ 
る.この場合も仮想記憶が有効である.そのため，仮 
想記憶といえば，現在ではマルチタスクを実現する手 
法として紹介されることが多い. 

マルチタスクも，物理メモリを複数のブロックに分 
けて，そのブロックを各タスクに割り当てて実行させ 
ることで実現される•このような仮想記憶を行う場合， 
各タスクが自身に割り当てられた物理メモリのブロッ 
ク以外をアクセスしないように保護する機能も必要に 
なってくる. 
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補助記憶装置 
(八ードディスク） 


• 現在ではページング方式が主流になっている 

仮想記憶の方式としては，大きく分けて，セグメン 
卜方式とページング方式がある.現在ではページング 
方式が主流なので，ここではページング方式を主体に 
話を進める.セグメント方式にっいてはコラム2で言 
及する. 

ページング方式の場合，タスクのアドレス空間を分割 
したブロックをページと呼ぶ.また，不要になったペー 
ジを補助記憶装置に退避したり，必要なページを補助 
記憶装置から復元する作業をページスワップと呼ぶ. 

メモリのアクセス速度に比べてハードデイスクのア 
クセス速度は非常に遅いので，ページスワップが頻繁 
に発生すると，プログラムの実行速度は低下する.し 
かし，プログラムとデータにはある程度局所性がある 
ため，ページスワップがあまり発生しないことを期待 
して仮想記憶が実現されている.ところが，頻繁に 
ページの範囲を超えて分岐が発生するプログラムゃ不 
連続な大量のデータを参照するプログラムでは，ペー 
ジスワップの発生する確率が高くなる.このような場 
合は，そのタスクのページサイズを大きくすることで， 
ある程度ページスワップを回避できる.このため， 
MPU によってはタスクごとにページサイズを可変に 
できるようになっている. 



•アドレス変換とは？ 

PC におけるプログラミングにおいて「このプログ 
ラムは物理アドレスの何番地に割り当てられるから」 


などと考えてプログラムを作る人は （ 0 S 屋などを除 
き），まずいない.誰もが，自分の書いたプログラム 
は，たとえば「0番地から配置され無限の容量をもっ 
ている」と考える.つまり，プログラムはそれぞれ固 
有のアドレス空間をもっている.マルチタスクを行う 
ということは，重複するアドレス空間をもつ複数のプ 
ログラム（タスク）を同時に物理メモリに割り当てて実 
行するということである.このような操作を可能にす 
るためには，プログラムの中で想定されているアドレ 
スを，実際の物理メモリに配置するためのアドレスに 
読み替えるしくみが必要になる.これが，アドレス 変 
換 である. 

プログラムが想定しているアドレスは仮想アドレス 
(論理アドレスともいう）と呼ばれ，物理メモリに割り 
当てられるアドレスを物理アドレス（実アドレスとも 
いう）と呼ぶ.アドレス変換とは，仮想アドレスを物 
理アドレスに変換する作業のことである.プログラム 
の仮想アドレス空間は，一定の容量をもつページに分 
割される.このページ単位に，仮想アドレスから物理 
アドレスの変換が行われる（図 1). 

ページのサイズ（容量）は〇 S によってまちまちであ 
る.昔は1ページのサイズが 2 K バイトのものが多か 
ったが，現在は 4 K バイトのものが多いようだ. 4 K バ 
イトは16進数で表現すれば1000バイトである.私見 
ではあるが，人間にとってなんとなくきりのいい数値 
なので， OS 屋さんに好まれるのであろう. 

それはともかく，仮想アドレスと物理アドレスの対 
応は，物理 メモリ 上に置かれたアドレス変換 テーブル 
による. この 変換 テーブルはページテーブルと 呼ばれ， 


図1仮想記憶のイメージ 


DO 

)0 

)0 

)0 

〕0 


仮想アドレス空間 
〔アプリケーション 
から見た空間） 




物理アドレス空間 
(0S から見た空間) 


0 0 0 0 0 0 
5 4 3 2 1 0 

X X X X X X 
0 0 0 0 0 0 

仮想アドレス空間は連続している 
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第 5 章 MMU の基礎と実際 


仮想アドレス 


31 


PS+ 1 PS 


0 


ページ番号 オフセツト 


ページ番号をベ- 
ジテー ブルのイン 
デックスとする 


図21レベルのアドレス変換 


ページテーブル 
ベースアドレス 
レジスタ 


ページテーブル 















31 


PS+ 1 PS 


変換後の値 オフセツト 


0 


物理アドレス 


通常4バイトまたは8バイト長のエントリの集まりで 
ある.これをとくに ページテーブル エントリ ( PTE ) 
と呼ぶ. 32ビット〇 S の場合，アドレスは32ビットで 
表現されるので， PTE には最低でも1 ページ あたり 
32ビット （4 バイト）の領域が必要である. 

もっとも，仮想アドレスと物理アドレスは，同一べ 
ージ内のオフセット （1 ページが 4 K バイトの場合はア 
ドレスの下位12ビット）は一致するので，必要なビッ 
卜数はもう少し少なくてよい.しかし実際には，その 
ページの保護情報のための情報やページスワップのた 
めの情報も必要になるし，ワード長 (4 バイト）または 
ダブルワード長 （8 バイト）のほうが （0 S の）プログラ 
ムで扱いやすいので， 一つの 仮想アドレスに対して4 
バイトまたは8バイトの PTE が用いられるのが普通 
である. 

•アドレス変換のレベル 

さて，仮想アドレスが32ビット，1ページが 4 K バ 
イトの場合を考えよう.この場合，仮想アドレスの下 
位12ビットがページ内オフセット，上位20ビットが 
ページ番号になる.このページ番号をインデックスと 
してページ テーブルを 参照すれば，そのページに対応 
する物理アドレスを取り出すことができる. 

なお， ページテーブルのベース アドレスはタスクご 
とに固有な値をもっていて，コンテキスト（タスクを 
性格づける情報）の一部である特権レジスタに格納さ 
れている. 図 2に仮想アドレスから物理アドレスを得 
る変換作業の概念図を示す.この図では20ビットの 
インデックスで ページテーブルを 参照するので， 
PTE の数は 1 M 個必要である. PTE の容量は4バイト 
または8バイトなので，1タスクあたり 4 M バイトま 
たは 8 M バイトの物理 メモリの 容量が ページテーブル 
のために必要になる. 


しかし，タスクのもつアドレス空間は32ビット （4 G 
バイト）のすベての領域を使っているわけではなく， 
命令，データ，スタックなど，性質の異なる領域ごと 
にある程度塊になって存在している.このような場合， 
1 M 個のページテーブルエントリをすベて用意するの 
は不経済である.へたをしたら物理メモリがページ 
テーブルだけであふれてしまうという状況も起こりか 
ねない.そこで，ページテーブルを多段階に分けて参 
照する方法が考えられている. 

この方式では，仮想アドレスのページ番号をさらに 
いくつかの領域に分ける.たとえば，20ビットの 
ページ番号を上位12ビットと下位8ビットに分ける. 
この場合，上位12ビットをインデックスとして1段目 
のテーブルを参照し，2段目のテーブル（これがペー 
ジテーブル）へのベースアドレスを獲得する.そして， 
下位8ビットをインデックスとして2段目のテーブル 
を参照し，物理アドレスを獲得する.この概念図を 図 
3 に示す. 図2 ではページテーブルを直接参照してい 
るので 1 レベルのページング， 図3 では2回目でペー 
ジテーブルを参照しているので2レベルのページング 
と呼ばれる. 

最近の MPU では，2レベルのページングでアドレ 
ス変換を行うことが主流だが， MC 68030 や68040で 
は3レベルのページングを行うこともできる. 

3 TLB 

• TLB とは？ 

MPU が仮想記憶モードで動作している場合，仮想 
アドレスから物理アドレスへの変換を，いちいち物理 
メモリ上の ページテーブルを 参照しにいっていたので 
は，その処理が命令実行のボトルネックになってしま 
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図 3 2レベルのアドレス変換 


仮想アドレス 


12ビット 8ビット 12ビット 

, - A - W - A - S, - A - N 

31 PS + 1 PS 0 



う.それを避けるために， MPU は内部に TLB 
(Translation Look-aside Buffer ) と呼ばれる変換テー 
ブルをもっている. 

日本語ではアドレス変換緩衝機構と訳されること 
が多い.モトローラは ATC (Address Translation 
Cache ), つまり，アドレス変換キャッシュと呼んで 
いる.その名のとおり， TLB とは， PTE をチップ内 
にキャッシュしたものである. 

MPU はアドレス変換を行うとき，まず TLB を參照 
し，そこに目的の仮想アドレスと物理アドレスのペア 
が格納されていれば ( TLB ヒット），その物理アドレ 
スを用いて命令を処理する.もし該当する仮想アドレ 
スが TLB 内になければ ( TLB ミス），物理メモリ上の 
ページテーブルを參照しに行き，その値を TLB に登 
録する.また， TLB には PTE と同様にメモリ保護な 
どの情報が格納されており， TLB 参照の際に不正ア 
クセスがないかどうかチェックする.もし不正なアク 
セスである場合は，メモリ保護例外を発生する.以上 
が MMU の機能である. 

ただし，最近の RISC チップでは， TLB を参照した 
とき，仮想アドレスが登録されていないと直ちに例外 
を発生して， TLB の内容を入れ替える処理を 0 S のプ 
ログラムに任せる.何度もメモリ上のテーブルを參照 
して TLB の内容を更新する処理は，実現が複雑であ 
り，メモリアクセスはロード/ストア命令だけという 
RISC のポリシにも反する.何よりもパイプライン動 
作が妨げられてしまう.このため RISC では， TLB の 
機能そのものが MMU の機能ということもできる. 

• TL 日の構造(連想方式） 

TLB とは，仮想アドレスをタグとして内容を参照し， 


一致するタグがあれば対応するデータを物理アドレス 
として出力する一種のキャッシュメモリである.その 
構造は参照の仕方により，次の3種類に分類できる. 
•フルアソシアティブ方式 
•ダイレクトマッブ方式 
• / 7 ウェイセットアソシアティブ方式012 2) 

► フルアソシアティブ方式 

フルアソシアティブ （Full Associative ) 方式は， 
TLB のエントリ数の数だけ異なる仮想アドレスを格 
納できる方式である.ほかの方式とは異なり，各エン 
トリに格納される仮想アドレスに制限はない.通常は 
連想メモリという特殊なメモリで構成されるため， 
LRU 処理（詳細は後述）が複雑になるため，多くのエ 
ントリをもたせることができない.現在の技術では 
50エントリ程度が限界と思われる.ただし，実装さ 
れているエントリをむだなく使用することができるの 
で，少ないエントリ数でも高いヒット率(仮想アドレ 
スを参照したとき， TLB 内に存在する確率）を得るこ 
とができる.図4にフルアソシアティブ方式の TLB 
の構成を示す. 

►ダイレクトマップ方式 

ダイレクトマッブ (Direct Mapped) 方式は，もっと 
も単純な方式である.仮想アドレスが決まると，その 
仮想アドレスで参照するエントリが一意に決まってし 
まう.たとえば，256エントリのダイレクトマップ方 
式の TLB を參照する方法として，仮想アドレスのビ 
ット19〜 12(8 ビット）を使用してエントリをインデッ 
クスする方法が考えられる.これは，ページサイズが 
4 K バイトの場合である.仮想アドレスのビット31〜 
12がページ番号を表し，その下位8ビットである. 
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d 4 フルアソシアテイブ方式 


仮想ァ ドレス 

31 PS + 1 PS 〇 


くージ番号オフセツ 


タグ部 


データ 部 


TLB 



不一致 

一 


— 

一致 

一 






— 

不一致 

一 



31 


PS + 1 PB 


0 


変換後の値 


オフセツト 


物理アドレス] 


図5 


ダイレクトマップ方式 


仮想アドレ^ 



8ビットの データは 256種類を識別できるので，仮 
相ア ドレスと TLB のエントリを1対1に対応させるこ 
とができる. 

ただし，この場合，下位8ビットが一致する仮想ア 
ドレスは異なるアドレスであっても同一の TLB エン 
トリが参照されてしまう.プログラムの仮想アドレス 
が256通りでまんべんなく変化することは稀なので， 
場合によっては一度も参照されないエントリが存在す 
る.逆に同じエントリが何度も参照され，前の データ 
を書き潰してしまうおそれもある. 

ダイレクトマップ方式は，構造は単純でエントリ数 
を多くもたせることができるが，エントリ数を多くし 
ないと高いヒット率は期待できない.図5にダイレク 
トマップ方式の TLB の構成を示す* 


► n ウェイセットアソシアティブ方式 
n ウェイセットアソシアテイブ （ n - wa y Set Associa 
tive ) 方式とは，ダイレクトマップ方式の改良版であ 
る.ダイレクトマップ方式のェントリを ,1 系統用いて 
構成する.この方式も， LRU 処理の制限から”の値は 
2または4であることが多い.簡単のために 2 ウェイ 
セットアソシアティブ方式の場合で説明する.ダイレ 
クトマップの場合と同様に，仮想アドレスが与えられ 
ると ェントリは一意に決定されるが，今の場合は 2 組 
の ウェイ （ェントリの 集合）があるので’同時に二つの 
ェントリに格納されている仮想アドレスと比較を行 
う.与えられた仮想アドレスがそのどちらかに一致し 
ていればヒッ ト ということになる.一般にウェイ数か 
増えるほどヒット率が向上する.図6に2ウェイセツ 
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12 ビット 


図6 

2ウェイセツ トアソ 
シアティブ方式 


仮想アドレス 


12 — /7ビット /?ビット 



トアソシアティブ方式の TLB の構成を示す • 

• TLB の更新方式 

TLB のエントリ数には限りがある.エントリの中 
に有効なデータが入っていなければ，そこにアドレス 
変換の情報を格納していけばよいが，エントリがすで 
に有効なデータで占められていて，新たに変換の情報 
を登録できないことがある.この場合は，古い情報を 
追い出して新しい情報を書き込む（上書きする）ことに 
なる. 

追い出しの対象となるエントリを決定するためにも 
っとも多く使われるのが， LRU(Least Recently Used) 
という手法である.つまり，時間的にもっとも使用さ 
れていないエントリを追い出す.その実現方法は2ウ 
ェイセットアソシアティブ方式では簡単である•二つ 
のエントリの組に対して1ビットの LRU ビットを設 
ける.そのビットの値が〇か1によって二つのうち対 
めするエントリをあらかじめ決めておく.そして〇 
側のウェイがヒットすれば LRU を1側に，1側のウェ 
イがヒットすれば LRU を0側に更新する.もし，そ 
のエントリに対応する仮想アドレスであって，どちら 
のエントリの内容とも一致しない仮想アドレスを変換 
しなければならない場合は，対応する物理アドレスを 
求め， LRU ビットが示す側のウェイのエントリに上 
書きする. 4ウェイセットアソシアティブの場合は四 
つのエントリに対して6ビットの情報で LRU を構成 
できる.フルアソシアテイブ方式での LRU はかなり 


複雑である.その方式が特許になるほどややこしいの 
で，ここでは説明を省略する. 

現実でも，エントリ数が多い TLB に対しては LRU 
方式を用いない.それでは，フルアソシアティブ方式 
の場合，追い出すエントリをどのように決定するのか. 
答は単純である.適当に決めるのである.具体的には 
(疑似)乱数を用いてエントリを決定する.これは，ど 
のエントリの仮想アドレスも同じ程度に参照され てい 
ると仮定している.どのエントリが選ばれても恨み っ 
こなしということである. 

• タスク切り替えと TL 巳 

タスクの仮想アドレス空間はタスクごとに固有であ 
る.意図的にほかのタスクのアドレス空間と一部の空 
間を共有させることもあるが，基本的には特定の特権 
レジスタの値で一意に規定される.この特権レジスタ 
はコンテキストの一部であり，その値を基準として何 
回か間接参照を繰り返せば，最終的に ページテーブル 
の ベース アドレスを得ることができる.このため， 夕 
スクが切り替われば TLB の内容もそのタスクの仮想 
アドレス空間を反映したものに切り替わらなければな 
らない.論理的にはタスクの数だけ TLB が必要とい 
うことになる.しかし，現実的には，タスクの数の最 
大値を予测することは不可能であり， MMU 内にいく 
つもの TLB を実装するのはむだが多い（実質不可能). 

そこで，多くの MPU ではタスクが切り替わるたび 
に TLB の内容を無効化してしまう.この方式でけ 
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.. .•パ,/.. •へ：. 


必要以上に TLB エントリを無効化してしまうおそれ 
があり，それがプログラムの実行速度の低下を招く. 

たとえば，タスク番号0のタスクでは仮想アドレス 
1000番地しか參照せず，またタスク番号1のタスクで 
は仮想アドレス2000番地しか参照しない場合で，夕 
スクが 0—1 — 0と切り替わる場合を考える.このと 
き，最初は1000番地が TLB に登録されているが，夕 
スクが1に切り替わる時点で無効化される.そして， 
タスクが再び0に切り替わるとき，1000番地は TLB 
に登録されていないので，再びメモリ上のアドレス変 
换テーブルを参照して TLB に100〇番地を登録する必 
要がある.タスク1が1000番地を使用しないなら，こ 
の TLB 入れ替え処理は余分である.しかし，他の夕 
スクが使用する仮想アドレスを予測することはできな 
いので，誤ったアドレス変換をしないように，古い夕 
スクのアドレス変換情報は消去してしまわなければな 
らない.必然的に，しなくてもよい TLB 入れ替えが 
増加する. 

その欠点を回避するために， TLB のタグ部にタス 
ク番号を入れておき，タスク番号込みで仮想アドレス 
の一致を調べるという方式を採用する MPU もある. 
この方式だと，タスク番号1の仮想アドレス〇番地と， 
タスク番号2の仮想アドレス〇番地が同時に TLB に登 
録されていても（このような状況が発生するのはフル 
アソシアテイブ方式の TLB に限られるが），二つの0 
番地を区別することができる.タスクの切り替え時に 
TLB の内容を無効化する必要もない. TLB 入れ替え 
は，本当に必要な場合にのみ行われる. 

• TLB の分離 

最近の MPU は，パイプライン処理で命令を実行し 
ている.命令フェッチやデータアクセスの前には仮想 
アドレスを物理アドレスに変換する必要があり，その 
とき TLB が參照される.何も考えずに MPU を設計す 
ると，ある瞬間に，命令用のアドレス変換での TLB 
の參照と，データ用のアドレス変換での TLB の参照 
が同時に発生することになる.命令の仮想アドレスと 
データの仮想アドレスは一般には一致しないので，二 
つの仮想アドレスで同時に TLB を參照することにな 
るが，これは不可能である.どちらかの参照を遅れさ 
せて，逐次的に参照をすることになる. 

このときのパイプラインの乱れを嫌って，命令用と 
データ用に二つの TLB を採用する MPU もある.キヤ 
ッシユで命令とデータのデータパスをそれぞれ専用 
にもたせる構造をハーバードアーキテクチャと呼ぶ 


が，その TLB 版と考えればよいだろう.実際，古く 
から ハーバー ドアーキテクチャを提唱していたのは 
Motorola であり， MC 68040などは，命令とデータの 
2系統の TLB をサポートしている. 

•マイク C 1 TL 巳 

命令とデータで同じ規模の TLB を用意するのは大 
げさだし，あまり効果はないように思える.なぜなら， 
データはともかく，命令のアドレスはシーケンシャル 
に実行され，分岐で初めて別のアドレスに切り替わる 
からである.分岐自身もページサイズの範囲を超える 
ことは稀なので，命令のための仮想アドレスを変換し 
なければならない場合は（データに比べると）極端に少 
ない.そこで，命令用の TLB として1〜4エントリ程 
度の特別な TLB を採用する MPU もある.そのような 
TLB は マイクロ TLB と呼ばれる. 

多くの場合，マイクロ TLB は本体の TLB の内容を 
キャッシュしたもので，ページサイズも固定である. 
命令がマイクロ TLB にミスした場合は，まず，本体 
の TLB を参照し，そこにヒットすれば，そこから物 
理アドレス情報をもってきて内容を更新する . TLB 
のページサイズがマイクロ TLB のページサイズより 
も大きい場合は，マイクロ TLB でミスしても本体の 
TLB でヒットする確率が高いので，アドレス変換 
テーブル検索のためのメモリアクセスが発生すること 
は稀である.また，このような構成であれば，メモリ 
アクセスを発生させて TLB を更新するロジックが1 
系統分で済む.一方，命令 TLB とデータ TLB に分離 
されている場合は，それぞれ独立な TLB 更新ロジッ 
クが必要である. 

さらに，マイクロ TLB の参照は，本体の巨大な 
TLB を参照するよりも少ない電力で行えるので，命 
令だけでなく，データに対してもマイクロ TLB が採 
用されることもある. 

A PTE(Page Table Entry) 
4 の実例 

• PTE とは？ 

TLB ミス時，アドレス変換におけるメモリ内の変 
換テーブルのサーチは2〜3段階のレベルに分けて行 
われる場合もあるが，最終的には，ページテーブルと 
呼ばれる PTE(Page Table Entry ) が順次格納されて 
いるテーブルに突き当たる. PTE とは通常31ビット 
長のデータで，物理アドレス（オフセット部分を除く） 
と保護情報を含んでいる. PTE はページデイスクリ 
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CM : キャッシュモード U : 使用（参照） 

G :グロー バル U1 :ユーザーページ属性1 

M :モディファイ（変更） U0 :ユーザーページ属性0 

PDT :ページディスクリプタタイプ（存在.間接） UR :ユーザー用 
S :スーパノ（イザ保護 W :ライト保護 

(a) MC68OXO0PTE (ページディスクリプタ） 4K パイトべージ用 


31 

12 

11 9 

8 7 
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3 
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0 

物理ページ番号 

OR 

IR 

D 

A 

PCD 

PWT 

U/S 

R/W 

P 


0R : 0S 用 

IR :インテル予約 

D: ダーティ（変更） 

A :アクセス（参照） 

P :プレゼント（存在) 


図7 PTE の実例 


PCD :ページキャッシュ禁止 
PWT :ページライト スルー 
U/S :ユーザー/スーパバイザ（保護) 
R/W： リ_ド/ライト（ライト保護） 


( b ) X86PTE 


プタと呼ばれることもある. 

ページテープルに並んだ PTE の意味は，先頭が仮 
想アドレス0(ページ 0) に対応する情報，その次が仮 
想アドレス 0 x 1000( ページ1,ページサイズが 4 K バイ 
卜の場合）に対応する情報，その次が仮想アドレス 
0 x 2000( ページ 2) に対応する情報，という具合になっ 
ている.何番目の PTE が使用されるかは仮想アドレ 
スの値によって一意に決定される.図7に MC 680 x 0 
で使用される PTE と x 86 で使用される PTE の実例を 
示す. PTE の情報のうち，物理アドレスに関しては 
説明不要と思うが，他のビットについて説明してお 
こぅ. 

• MC 680 X 0 の場合 
CM :キャッシュモード 

このビットは対応する仮想ページの，キャッシュの 
可/不可，ライト制御（ライトスルー/ライトバック）， 
キャッシュ不可時にアクセスの逐次性を保証するか否 
かを示す. 

G :グローバル 

このビットは PFLUSH 命令で使用する. PFLUSH 
は TLB のエントリを無効化する命令であるが， G ビ 
ットがセットされているページは無効化されない. 

M :モディファイ 

ライトアクセスで発生した TLB ミスに起因する変 
換 テーブルのサーチが 行われた後，対応する PTE の 
M ビットが自動的にセットされる.つまり，対応す 
る仮想ページの内容が変更されたことを示す. 

PDT :ページディスクリプタタイプ 


ページ ディスクリブタ （PTE を含む変換テーブルエ 
ントリ）の種類を示す.それは，有効/無効，対応する 
テーブルまたは ペー ジがメモリ内に存在/不在，間接 
(中間）のディスクリプタか否かという情報を示す.間 
接ディスクリプタの場合は，次のレベルの変換テープ 
ルの先頭を示す物理アドレスが格納されている.直接 
(最終）ディスクリプタの場合は，それが PTE である 
ことを示す.なお MC 680 x 0 では， PTE に対応する物 
理 ページの 内容がメモリに存在 i •ることをレジデント 
と呼ぶようである. 

S :スーパバイザ保護 

スーパバイザモードの みで参照できるページである 
ことを示す. S ビットがセットされていない場合は， 
スーパバイザ モー ドでも ユーザーモー ドでも参照で 
きる. 

U : 使用 

変換テーブルのサーチが行われた後，対応する 
PTE の U ビットが自動的にセットされる. M ビット 
とは異なり，リード，ライト両方のアクセスでセット 
される.対応する仮想ページの内容が参照されたこと 
を示す. 

U 0， U 1 :ユーザー ページ 属性 

MPU の実行に影響は与えない.それぞれの値が， 
UPAO , UPA 1 という端子状態に反映される （MC 
68040以降). 

UR :ユーザー 使用 

ユーザー （ OS ) が自由に使用してよいビット . MPU 
にとっては意味がない. 
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W : ライト保護 

このビットがセットされている仮想ページに対し， 
ライトアクセスを行おうとすると例外が発生する. 

• X 86 の場合 
OR : OS 用 

OS が自由に使用してよいビット. MPU にとっては 
意味がない. 

IR :インテル予約 

将来の拡張用にインテル（メーカー）によって予約さ 
れているビット.現状， MPU にとっては意味がない. 

D :ダーテイ 

ライトアクセスで発生した TLB ミスに起因する変 
換 テーブルのサーチが 行われた後，対応する PTE の 
M ビットが自動的にセットされる.つまり，対応す 
る仮想ページの内容が変更されたことを示す. 

A :アクセス 

変換テーブルのサーチが行われた後，対応する 
PTE の A ビットが自動的にセットされる. D ビット 
とは異なり，リード，ライト両方のアクセスでセット 
される.対応する仮想ページの内容が参照されたこと 
を示す. 

PCD :ページキャッシュ禁止 

このビットがセットされている PTE に対応する仮 
想ページはキャッシュアクセスを行わない. 

PWT : ページ ライ トスルー 

このビットがセットされていると外部キャッシュ 
( L 2 キャッシュ）をライトバック制御にする. 

U/S :ユーザー/スーパバイザ 

このビットがセットされていないと，特権レベル3 
(ユーザーモー ド）では対応する仮想ページをアクセス 
できない. 

R/W :リード/ライト 

このビットがセットされていないと，特権レベル3 
(ユーザー モード）では対応する仮想 ペー ジに対してラ 
イトアクセスできない. 

P :プレゼント 

このビットがセットされていれば，対応する物理 
ページの内容がメモリに存在することを示す.このビ 
ットがセットされていない場合，ページフオールト 
(例外)が発生する. 

これまでの説明を見ればわかるが， PTE 内の情報 
は，どの MPU でも似たり寄ったりである.似ている 
のは，物理アドレス，アクセスがあったこと示す情報， 
ライトがあったことを示す情報，存在を示す情報，保 


護情報などである.個人的には x 86 での名称がしっく 
りくるので，そちらを使って，以下に， 0 S がそれら 
の情報をどう利用するかを説明する. 

• ページフォールト時の処理 

ページフォールトとは PTE にアクセスした場合に， 
その PTE が無効だったり，対応するページの内容が 
メモリに存在しないときに発生する例外である. 

ページフォールトの処理には， P ビット （PDT = 00) 
を利用する. P ビットが0ならば，仮想アドレスに対 
応する プロ グラムの内容がメモリ内に存在しないこと 
を意味する.初期状態では PTE 内の物理アドレス情 
報は決定されていない.ページフォールトが発生する 
と，〇 S はメモリ内に空いている領域を見つけ，そこ 
に新しいページの内容を補助記憶装置(ハードディス 
ク）からロードする（これをページインという）.この 
とき，見つかった空き領域の物理アドレスが PTE 内 
の物理アドレス情報となる.メモリがすべて他のペー 
ジに占有されていて空き領域がない場合は，どこかの 
ページを補助記憶装置に追い出して（これをページア 
ウトという）そこを使用する.ページインとページア 
ウトの操作を総称してページスワップ(交換）と呼ぶ. 
• ページスワップ時の疑似 LRU(Least Recently 
Used ) 制御 

ページアウトを行う場合，もっとも使用頻度の低い 
ページを追い出すのが効率的である. A ビット （ U ビ 
ット）を利用して疑似 LRU 処理を行い，使用頻度の低 
いページを決定する.そのために， 0 S は定期的に全 
PTE の A ビットの状態をチェックする.そしてチェ 
ックが終わったら，ソフトウェアで A ビットを強制 
的に0にクリアする.同時にその PTE の内容がキヤ 
ッシユされている TLB のエントリを無効化しておく. 
TLB にヒットする限り， PTE のアクセスが発生しな 
いからである.こうしておけば，その後，同じ仮想ア 
ドレスに対するアクセスが発生すると再び A ビット 
が1にセットされる.このような環境で A ビットが1 
になる頻度を計数しておき，それがもっとも小さい 
ページがアクセスのもっとも少ないページということ 
になる. 

なお， 0 S によっては，疑似 LRU 処理を行わず，単 
純な FIFO 処理でページアウトするページを決定する 
ものもある.これは，いちばん昔に変換したページか 
ら追い出していくというものである.あるいは，どの 
ページを選択しても大差ないとして，ランダム処理で 
適当に追い出す候補を決める場合もあるかもしれない. 
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• ページスワップ時の補助記憶装置への無意味な書 

き戻しを制御 

メモリ内に存在するページでも，そこに対して書き 
込みが行われていなければ，その内容は補助記憶装置 
に存在するもの（ページイン直前のもの）と同じであ 
る.つまり，そのページがページアウトの対象になつ 
ても補助記憶装置に書き戻す必要はない.補助記憶装 
置から読み込んだ新しいページの内容でメモリを書き 
潰してよい.これは処理時間の短縮につながる.この 
書き込み制御には D ビット （ M ビット）を利用する .D 
ビットが〇なら，そのページへの書き込みが行われて 
いないことを示す. 

• メモリマップト I / O の実現 

アドレス変換により， I / O ポートを仮想アドレスに 
対応させることもできる.その仮想アドレスをリード 
/ライトすることで， I / O ポート への リード/ライトと 
みなすしくみをメモリマップト I / O という.これを実 
現する場合，そのページは非キャッシュ領域でなくて 
はならない.なぜなら，同じ I / O ポートをリードして 
も同じ値が返ってくるとは限らないので，それがキヤ 


ッシングされると都合が悪いからである. 

PCD ビット （ CM ビット）を使用すれば，そのページ 
のキャッシングを禁止できるので，メモリマッブト 
I / O が実現できる.もっとも， PCD ビットは I / O ポー 
卜でなく， フレームバッファ など，キャッシングされ 
ると都合の悪い領域の指定にも利用する. 

また， I / O ポートはリード/ライトする順番が異な 
ると意味が変わるので，アクセスの逐次化（プログラ 
ムで書いた順番にアクセスすること）を実現すること 
も必要である.通常の MPU では非キャッシュ領域に 
対するアクセスの逐次化は保証されているが，例外も 
ある.それは MC 680 x 0 で，逐次化を明示的に指定す 
る必要がある. 

•結局，キャッシュと同じ 

アドレス変換で利用される TLB はメモリに対する 
(ライトバック）キャッシュと同じように作用する.実 
際， OS の助けを借りるが， A ビットによる LRU 処理， 
D ビットによるページアウト（ライトバック）処理は， 
キヤッシュのそれと容易に対比できる. 


KSSSSSD アドレス変換の効率化 


アドレス変換で利用される TLB はメモリに対する（ラ 
イトバック）キャッシュと同じように作用する.実際， 
OS の助けを借りるが， A ビットによる LRU 処理， D ビ 
ットによるページアウト（ライトバック）処理は，キャッ 
シュのそれと容易に退避できる.ただし，通常のキャッ 
シュミスのリフイル処理はあまり時間がかからないが， 
TLB ミスによる入れ替え処理は，メモリアクセスが多 
いため，その10倍程度の時間がかかる.ページフォー 
ルトが発生するような場合は，100倍程度の時間は優に 
かかってしまう.アドレス変換を効率的に行うためには 
TLB ミスの確率を減少させる（ヒット率を上げる）こと 
が肝要である. 

キャッシュのヒット率を向上させる手法と対比して 
TLB のヒット率を向上させる方法を考える.キャッシ 
ュのヒット率に関しては第4章を参照のこと. 

• 容量を増やす 

これは TLB のエントリ数を増やすことに相当する. 
通常， TLB はフルアソシアテイブで参照されるが，エ 
ントリ数が増えると，回路規模の問題で4ウヱイ，ある 
いは8ウェイセットアソシアテイブと簡略なものになら 
ざるをえない.同じ容量（エントリ数）でのフルアソシア 
テイブとセットアソシアテイブを比較すると，フルアソ 


シアテイブのほうがヒット率は高い.つまり，エントリ 
数を増やしても，セットアソシアテイブにすることでヒ 
ット率が上がるとはかぎらない. 

この辺のトレードオフは回路規模と欲しいヒット率を 
考慮してアーキテクチャを決定する必要がある.とはい 
え，•つのタスクでアクセスされる仮想アドレスの数は 
せいぜい20程度だと思うので， TLB の構造が性能に大 
きな影響を与えるとは思えないのだが…. 

• ラインサイズを増やす 

これはページサイズを大きくすることに相当する. 
TLB のヒット率が向上する反面，ページアウト時の処 
理時間が長くなってしまう.それを防ぐため，偶数と奇 
数のページを一括して管理する方式もある.ヒット率は 
ページサイズが2倍になるのとほぼ等しいが， TLB ミス 
時のスワップ処理は1ページ単位に行えるので，ページ 
アウト時の時間も1ページごとの管理の場合と変わら 
ない. 

昔，プログラムには実行の局所性があるので ， TLB 
ミスを発生した前後のページを余分に変換して TLB に 
入れておくという特許をよく見かけた.しかし，補助記 
憶装置に対するリード/ライトもその分だけ増加するの 
で，本当に実用的かどうかわからない. 
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5 メモリ保護 


• 実行レベルについて 

悪意のあるアプリケーションプログラム，あるいは， 


呼ぶ.値が小さいほど特権性が高い.たとえば実行レ 
ベルの名称は，次のようになっている. 

2レベル：カーネル > ユーザー 
スーパバイザ > ユーザー 
3 レベル：カーネル > スーパバイザ > ユーザー 


バグのあるアプリケーシヨンプログラムの暴走で 0 S 4レベル：レベル0二 


の領域を壊さないように， MMU はメモリ保護の機能 
を提供する.上述のように仮想記憶モードでは PTE 
によってリード/ライト属性による保護が実現されて 
いる.通常，プログラム領域はリードのみ可， データ 
領域はリード/ライト可能に設定されている.このほ 
かにも ユーザー， カーネルといった特権性による保護 
が行われる.これについて説明する. 

MPU のアーキテクチャでは，プログラムの実行レ 
ベルというものが定義されている.これは特権性の強 
さを表すもので，通常，アプリケーションプログラム 
は最低の特権性の下で実行される.メモリ保護とは， 
仮想アドレス空間の各ページに保護レベル（そこのプ 
ログラムやデータにアクセスできる最低の実行レべ 
ル）をもたせ，特権性の低いブログラムから，より特 
権性の高いプログラムへのアクセスをできなくする機 
能である（図 8). 

実行レベルの種類は，アーキテクチャによって異な 
るが，2〜4種が定義されている. 2〜3種の場合，実 
行レベルに名称が付いていることが多い. 4種の場合 
は，単に，レベル〇,レベル1，レベル2，レベル3と 


カーネル > レベル1 > レベル2 > 
レベル 3 = ユーザー 

ここで，不等号は特権性の高さを表すものとする. 
カーネルとは OS の実行レベルであり，スーパバイザ 
とはデバイスドライバやランタイムライブラリの実行 
レベルである.ユーザーとはアプリケーションプログ 
ラムの実行レベルである.多くの OS では，カーネル 
(あるいはスーパバイザ）とユーザーの2レベルしか使 
用しない.その中間の実行レベルは，あれば便利だが， 
OS の構造が複雑になるのであまり使用されない. 

通常，実行レベルは MPU のステータスレジスタに 
格納されている.一方，保護レベルは PTE で指定さ 
れ，同等の情報が TLB にも格納されている.そして， 
アドレス変換時に現在の実行レベルとアクセスする 
ページの保護レベルが比較され，自分と特権性が同じ 
か，特権性が低いページであるとアクセスが許可され 
る.アクセスが禁止されている場合はメモリ保護例外 
やアドレス例外が発生する. 

PTE では，リード，ライトといった，アクセスの種 
類での保護も可能になっている.つまり，リード可能， 
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図 9 コールゲー トの概念 



ライト可能，リード/ライト可能といったページ保護 
を独立に指定できる.アーキテクチャによっては「実 
行」というアクセスの種類をもっているものもある. 

以上は，たいていの MPU の保護機構であるが，も 
っともシェアの高い（と思われる） x 86 アーキテクチャ 
では，少し事情が異なる.ステータスレジスタ （ x 86 
でいうところのフラグレジスタ ） 内に実行レベルを保 
持しない.現在実行中の仮想アドレス（セグメント）の 
保護レベルが，そのまま現在の実行レベルとなる.属 
するセグメントが変わるとき (FAR CALL や例外など） 
に，移行先の仮想アドレスの保護レベルと現在の実行 
レベルの比較を行ってメモリ保護を実現する. 

• 実行レベルの変更 

MPU は，リセット直後は最高の特権性をもってい 
る.そしてアプリケーションプログラムを実行する直 
前に最低の特権性に移行する.また，アプリケーショ 
ンプログラムの実行中に割り込みや例外が発生する 
と，最高の特権性に戻る. 

力ーネルモードからユーザーモードへの移行は，具 
体的には割り込みからの復帰命令を利用する.この命 
令（たとえば ERET ) はスタックから新しいステータス 
レジスタの値と新しい PC (プログラムカウンタ）の値 
をリードして，その PC の示すアドレスに分岐する. 
このとき，スタックに積んであったステータスレジス 
夕に設定される値の中に新しい実行レベルが含まれて 
いる.アーキテクチャによってはスタックではなく， 
特殊レジスタからステータスレジスタと PC の値を 
リードするが，実質は同じである. 

ユーザーモー ドから よ り特権性の高い実行レベルに 
移行するには，専用命令が用意されている場合もある 


が，通常はソフトウェア割り込み（トラップ命令やシ 
ステムコール 命令）によって，一律に特権性が最高の 
カーネルモー ドに戻ることが多い.専用命令が用意さ 
れていない場合， ユーザーモー ドから特権性が中間の 
レベルに 移行するのは難しく， 一度，カーネルモード 
に移る必要がある. 

ただし x 86 では，また事情が異なる.仮想アドレス 
での保護レベルで許可されていれば，コールゲートを 
使用して任意の実行レベルに移行できる. x 86 のプロ 
テクトモードにおいて，セグメントレジスタの値はデ 
ィスクリプタテーブルと呼ばれる，新しいセグメント 
とオフセットが組になったディスクリプタの集まりへ 
の選択情報となる.コールゲートを呼び出すにはセグ 
メント間コール （FAR CALL ) やセグメント間ジ ヤン 
プ (FAR JUMP ) を利用する.新しいセグメントの値 
で選択されたディスクリプタがゲートディスクリプタ 
である場合がコールゲートとなる. 

ゲートディスクリプタには，新しいセグメントと才 
フセットの値のほかに，そのゲートをコールできる 
(最低の）実行レベルが格納されている . FAR CALL / 
FAR JUMP を実行するプログラムが存在しているア 
ドレスの実行レベルがゲートディスクリプタの実行レ 
ベルより特権性が高ければ，どの実行レベル（のセグ 
メント）にも移行できる（図 9). なお，割り込みや例 
外が発生した場合は，（一般）ディスクリプタテーブル 
の代わりに例外ディスクリプタテーブルが参照され， 
最高の特権レベル（レベル〇)に移行する. 

• 仮想アドレスによるメモリ保護 

ところで，メモリ保護は TLB で行うのが普通だが， 
仮想アドレスの値そのもので保護を行う場合もある•現 
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在の実行レベルに応じてアクセスできる仮想アドレス 
が最初から規定されているのである.たとえば ， MIPS 
のアーキテクチャがそうだ（図 10). ユーザーモード 
では仮想アドレスの 0 x 80000000 〜 OxFFFFFFFF の範 
囲はアクセスできないし，スーパバイザモードでは仮 
想アドレスの 0 x 80000000 〜 OxBFFFFFFF，OxEOOO 
000〇〜 OxFFFFFFFF の範囲がアクセスできない.し 
かしカーネルモードではすべてのアドレス空間をアク 
セスできる. 

そもそも組み込み制御分野では，アドレス変換が必 
要ない場合が多い.メモリ保護さえあればよい.この 
ような要求に対応するために MIPS の Jade (4 Kp ) では， 
BAT (Block Address Transfer ) と呼ばれる機構を提 


供している（図 11). これは，仮想アドレスは基本的 
に物理アドレスと同じになり，メモリ保護だけは図 
10と同等になる機構である.あるいは， MC 680 x 0 で 
は現在の実行レベルやアクセスの種類がファンクシヨ 
ンコード （ FC 2， FC 1， FC 0) として MPU の外部端子 
に出力されている.この信号とアドレスバスの値を 
外部回路で処理して，保護違反のアクセスを検出する 
と，バスエラーを MPU に通知できるしくみを提供し 
ている. 

6 MMU の実例 


ここでは，いくつかの MPU で MMU の実例を見て 




























図 12 

MC 68030 の変換制御レジスタ ( TC ) 
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E ： 変換許可 , 

SRE : SRP (スーパバイザルートポインタの許可） 

SRE =0 ::変換はすべて CRP(CPU ルートポインタ)から始まる 
SRE =1 ::ユーザーアクセスは CRP . スーパバイザアクセスは 
SRp 友イ串电 

FCL : FC (ファンクション]-ド)のルックアップ.つまり最初のデイス 
クリプタのアクセスを FC の値でインデックスするか 
PS : ページサイズ.1ページのビット数を指定 
IS :イニシャルシフト.仮想アドレスのサイズ (32 〜17ビット)を指定. 
つまり，アドレス変換時に仮想アドレスの上位をマスクするビット 
数. 32ビットなら◦を指定 

TISx :テーブルインデックス. TIA が1レべル目， T 旧が2レベル目， TIC 
が3レベル目， TID が4レベル目.それぞれ仮想アドレスの中で何 
ビットを占めるかを指定する 

注意： IS + TIA + TIV + TIC + TID+PS = 32( ビット)の関係を保たなけ 
ればならない 


FC 


論理アドレス 


TIA 


TIB 


TIC 


TID 


PS 



A レベル テー ブル 

図13 MC 68030 の5 レ ベルの テー ブル サーチ 


日レベル テー ブル 


C レベル テーブル D レベル テーブル 


みよう. 

• MC 68030 / MC 6804◦の MMU 

►アドレス変換 

MC 68030ではアドレス変換は〇〜5レベルの範囲で 
自由に設定できる.その設定を行うためのレジスタが 
変換制御レジスタ （ TC ) である.図12に TC の形式を 
示す. TIA , TIB , TIC , TID でそれぞれ1レベル， 
FC (Function Code =保護レベル）ルツクアツプを行 
えばさらに1レベル増えるので，最大5レベルのペー 
ジングとなる（インダイレクト指定をすれば6レベル 
まで可能ということだが，ここでは触れない）. TIA , 


TIB , TIC , TID の値を0に設定することで1〜4レべ 
ルのページングが可能になる•ゼロレベルというのは， 
ルートポインタ （ CRP ， SRP ) の中に直接変換後の物理 
アドレスが指定されている場合（アーリーターミネー 
シヨンという）である. 

MC 68030 では ， TLB ( ATC ) ミスに際し， 

CRP ( SRP ) — ( FC ) — TIA — Tffi — TIC — TID — 
と，変換テーブルをたどっていき（テーブルサーチ）， 
最終的にページテーブルに到達する. 5レベルのアド 
レス変換例を図13に示す.この例では PS は256バイ 
卜 （8 ビット）で， TIA , TIB , TIC , TID はそれぞれ4 
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第 5 章 MMU の基礎と実際 


ユーザーデータ 
空間への分岐 



図14 MC 68030 の FC ルックアップを 
用いたテーブルサーチ 


このレベルのテーブル 
インデックスは変換制 
御レジスタの TIA フイ 
ールドで指定される論 
理アドレスを使用する 


ビット（各テーブルは16エントリ）である. 図14 には 
FC ルックアップを用いたテーブルサーチ例を示す. 
FC によって，次にアクセスするレベル A テーブル 
( TIA でインデックスされるテーブル）のベースアド 
レスを個別に設定できるので，メモリ保護が実現 
きる. 

MC 68030 の MMU では変換テーブルを サーチす る 
ために，仮想アドレスを細かく分割しすぎている感も 
ある.実際的には2〜3レベルのページングしか行わ 
れないので，オーバスペックとも思える.後継の 
MC 68040ではこの点が改良された（退化と呼ぶ人もい 
るが').テーブルサーチは3レベルに固定し，ページ 
サイズも 8 K バイトまたは 4 K バイトのみが許されて 
いる.テーブルインデックスはレベル A テーブル， 
レベル B テーブルが7ビット，レベル C テーブルが5 
ビット （1 ページ 8 K バイトの場合），または，6ビット 


(1 ページ 4 K バイトの場合）である. MC 68030風にい 
えば， 

IS =0 
TIA = 7 
TIB = 7 

TIC = 5(8 K バイト/ページ)， 

6(4 K バイト/ページ） 

PS =13(8 K バイト/ページ)， 

12(4 K バイト/ページ） 

ということになる. 

► ATC ( TLB ) 

MC 68030の ATC は，22エントリのフルアソシアテ 
イブ構成である.仮想アドレスと FC を組で検索し物 
理アドレスを得る （図 15. ただし，この図は機能から 
推測した予想図）.一方， MC 68040の ATC は64エン 
トリの4ウェイセツトアソシアテイブ構成である•仮 
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図 15 

MC 68030 の ATC 

(筆者想像図） 
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MC 68040 の ATC 
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想アドレスと FC の最上位ビット （ FC [2]) を組で検索 
し，物理アドレスを得る（図 16). FC の最上位しか見 
ないということは，スーパバイザとユーザーを区別す 
るだけで，命令とデータの区別を行わないことを意味 
する. 

• i 486 の MMU 

Pentium 以降， Intel の MPU の内部構造に関して詳 
しく記してある資料は少ない. Intel アーキテクチャ 
は i 386 で完成しているので， MMU の基本構造もそれ 
以降大きな変化はないと予想される.ここでは， i 486 
の MMU を図 17 に示す. 

TLB は全32エントリの4ウェイセツトアソシアテ 


イブ構成を採る.セグメントユニットによって生成さ 
れたリニアアドレスのビット14〜12で TLB のエント 
リ（セット）をインデックスし，そこから選択される四 
つのタグブロックの値と，リニアアドレスのビット 

31〜15を比較する.もし，どれかと一致すればヒッ 
卜であり，どれとも一致しなければミスである.ヒッ 
卜する場合は，そのウェイとセットに対応するデータ 
を物理アドレスのページアドレスとしてアドレス変換 
を行う.ミスの場合は， MPU はメモリ上のアドレス 
変換テーブルを検索し，リニアアドレスに対応する変 
換情報を， TLB の指定されたエントリに格納する. 
そして，再びアドレス変換を試みる（当然，次は必ず 
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図 17 

i486 の TLB 
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ヒットする）.このとき書き潰されるウェイは，疑似 
LRU により，もっとも參照された頻度が少ないもの 
が選択される. 

• Quantispeed (Athlon/Hammer ) の MMU 

AMD の Athlon や Hammer で採用されている， 
Quantispeed アーキテクチャの一つに排他的，投機的 
TLB がある. 図 18 に Hammer の TLB の構成を示す. 

TLB はマイクロ TLB ( L 1- TLB ) と TLB ( L 2- TLB ) の 
2段構成を採り，これらの内容は排他的である . TLB 
自体も巨大で，効率的なアドレス変換ができる. 
Hammer の命令 TLB は L 1- TLB が40エントリのフル 
アソシアテイブ， L 2- TLB が512エントリの4ウェイ 
セットアソシアテイブである.データに関しては，2 
組の AGU(Address Generation Unit ) に対応して2組 
の L 1- TLB があり，それらは各40エントリのフルアソ 
シアテイブである. L 2- TLB は512エントリの4ウェ 
イセットアソシアティブである.これらが排他的 
( Exclusive ) であるので，命令は552エントリの TLB ， 
データは592ェントリの TLB として機能する.また， 
TLB は投機的にリフィルを行い，将来のアドレス変 
換に備える. 

TLB の具体的な挙動については，資料がないので， 
想像に過ぎないが，次のように機能すると考えられる. 

► L 1- TLB にヒットすると，そのエントリでアドレス 
変換する. 

► L 1- TLB にミス， L 2- TLB にヒットすると， L 2 -TLB 
のエントリでアドレス変換する.このとき， L 1- 


TLB と L 2- TLB のエントリを交換する仕様かもしれ 
ない （ L 1- TLB のほうがアクセス時間が短いと思わ 
れるため）. 

► L 1- TLB , そして L 2- TLB にミスすると， L 1- TLB の 
もっとも古いエントリを L 2- TLB に退避し，メモリ 
から L 1- TLB にリフィルする.現実的には L 2 -TLB 
にリフィルし，その後 L 1- TLB のエントリと交換す 
ると思われる. 

投機的なリフィルに関しては，1回の TLB ミスに対 
し，その前後のアドレスの変換情報を L 2- TLB にリフ 
ィルすると思われるが詳細は不明である. L 1- TLB か 
ら追い出されてくるエントリと投機的にリフィルされ 
るエントリが同一のエントリを占める場合はどちらが 
優先されるのだろうか.あるいは， L 1- TLB から L 2- 
TLB の書き戻しは発生しないのかもしれない. 

なお， Athlon では L 1- TLB は，命令とデータで各 
24エントリ， L 2- TLB は各256エントリである. つま 
り， Hammer は Athlon の約2倍のエントリを もつ. 

• MIPS アーキテクチャの MMU 

► TLB の概要 

MIPS アーキテクチャの MMU には TLB しかない. 
MPU は仮想アドレスが TLB 内にあるか否かを検索 
し，ヒット（ある）すれば対応する物理アドレスを供給 
する.ミス（ない）あるいは保護違反を検出する場合は 
TLB 例外を発生するのみである. 

丁 LB ミスが発生してもアドレス変換テーブルを自 
動的に検索し， TLB のエントリを入れ替えるという 
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図 18 Hammer の TLB の構成 


MASK :ページ比較マスク， VPN 2 :仮想ページ 
番号 ， G :グローバル (0 のとき. TL 日ルックアッ 
プ時に ASID を比較 ）. ASID :アドレス空間 ID : 
PFN :ページフレーム番号(物理ページの上位ビ 
ット )， C :キャッシュアルゴリズム ， D :ダーテイ， 

V :バリッド 


図19 1\/11?3の丁1_日（尺4000/32ビットモード） 

操作は行わない.代わりに TLB の内容をソフトウェ 
アで操作できるようになっており， TLB ミス発生時 
のエントリ 入れ替え処理は ソフトウ ェアで行う ことに 
なって いる.エントリ 入れ替えのための複雑なハード 
ウェアは省略するという RISC ならではの考え方であ 
る. MIPS アーキテクチャの発表当時， TLB の更新は 
数命令で実現可能であり，システム性能の低下はない 
と明言されていた. 

R 4000以降， MIPS 系の MPU は64ビットプロセッ 
サであり，アドレス空間に関して32ビットモードと 
64ビットモードをもっている. TLB の各エントリも 


32ビットモードと64ビットモードで若干異なる.図 
19に TLB エントリの形式を示す.各エントリは特権 
レジスタである，エントリ Hi , エントリ LoO ， エント 
リ Lol ， ページマスクレジスタと直接対応する領域を 
もっている. 

TLBS , 32ビットモードにおいては32ビットの仮 
想アドレスを，64ビットモードにおいては64ビット 
の仮想アドレス （ TLB には40ビット分の領域しかない 
が）を，通常は36ビットの物理アドレスに変換する. 
このしくみを図20に示す.物理アドレスのビット数 
は MPU によって異なり，それによってエントリ LoO , 
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図20 MIPS のアドレス変換 
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•エントリ HI レジスタには現在のアドレス空間 
•旧(タスク ID ) を格納しておく仮想アドレスの 
VPN (ページ番号）と ASID が TLB の各エント 
リの VPN , ASID と比較される. ASID を比較 
するのは G ビットが◦の場合のみ.比較時に 
MASK ビットで VPN の下位ビットをマスクす 
ることで種々のページサイズに対応する 
•比較内容が一致すると. PFN (物理アドレスの 
上位ビット)を取り出す 
•オフセット部分が TLB を通さずに使用され， 
PFN と結合して物理アドレスを生成する 


エントリ Lol レジスタ内の PFN 領域のビット数が決 
定されている. 

MMU のサポートするページサイズは，エントリご 
とに 4 K バイトから 16 M バイトの範囲で4の倍数ごと 
に指定できる.これは，エントリへの書き込み時にぺ 
ージマスクレジスタで指定する.アドレス変換時に， 
仮想アドレス番号 （ VPN ) の下位ビットをページマス 
クレジスタの値で無視して仮想アドレスの検索（一致 
比較)が行われる. 

►タブルエントリ構成 

MIPS 系の MMU の大きな特徴は， 二つの ページを 
組にして扱う点である. TLB は48エントリ （ R 4200, 
R 4300では32エントリ）のフルアソシアテイブ構成で， 
1エントリは連続する2ページ分（偶数ページと奇数 
ページ）を示す 一つの 仮想アドレスと，それに対応す 
る 二つの 物理アドレスを保持している. 

仮想アドレスはエントリ Hi レジスタ，偶数ページ/ 
奇数ページに対応する物理アドレスは，それぞれ，エ 
ントリ LoO レジスタ/エントリ Lol レジスタで指定す 
る.この TLB 形態は一般にダブルエントリ形式と呼 
ばれている. 48エントリではあるが，実質的には， 
98エントリ相当，あるいは指定したページサイズの2 
倍のページサイズをもっているとみなせるため TLB 
のヒット率が高くなるといわれている. 

► ASID 

なお， エントリ Hi レジスタは仮想アドレスのほか 
にタスク番号に対応する ASID (Address Space ID ) を 
指定できる. TLB の各 エン トリにも ASID に対応する 


領域があり，仮想アドレスの検索時に ASID の一致も 
調べられる.仮想アドレスと ASID が一致して初めて 
ヒットとなる.このため，マルチタスク環境下におい 
てタスク切り替えが生じても，エントリ Hi レジスタ 
の ASID を変更してさえおけば， TLB エントリの無効 
化をする必要がない. 

たとえば，あるタスクの仮想アドレス〇番地と，他 
のタスクの仮想アドレス〇番地に対応する物理アドレ 
スは一般には異なるので， ASID がなければ，〇番地 
を他のタスクの物理アドレスに変換してしまう必要が 
ある.このため， ASID をもたない TLB 構成において 
は，タスク切り替え時に TLB の全エントリを無効化 
しておく必要がある. OS やライブラリ空間など各夕 
スク間で共有する領域に関しては， TLB エントリの 
グローバルビッ トを セッ トしておけばよい.この場合， 
仮想アドレスの検索は ASID を無視して行う. 

また，エントリ LoO ， エントリ Lol レジスタは，対 
応するページのキャッシュ情報，保護情報も指定でき 
るようになっている. 

► 入れ替え方式 

MIPS アーキテクチャでは， TLB ミスが生じた場合， 
エントリの入れ替えはソフトウェアで行う.どのエン 
トリを追い出すかはランダム（任意）に決定する.とい 
っても実際には，ランダムレジスタという特権レジス 
夕が指し示すエントリを更新することになる.ランダ 
ムレジスタは，ワイヤードレジスタ（特権レジスタ）で 
示される値と （ TLB エントリ数— 1) の間の任意の値を 
保持している.つまり，ランダムレジスタは0から 
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図 21 

PowerPC (64 ビットモード）の MMU 


64ビット実効アドレス _セグぞント 



52 12 

64ビット物理アドレス 


(ワイヤードレジスター 1) の値は指し示すことがない 
ので， TLB のエントリ0から（ワイヤードレジスター 
1) までは決して追い出されることのない安全な（必ず 
ヒットする）エントリとして確保できる. 

• PowerPC(64 ビットモード ) の MMU 

2002年秋の Microprocessor Forum で， IBM から 
PowerPC の64ビット実装である PowerPC 970が発表 
された.現在では PowerMac G 5 に搭載されている 
MPU である. 

64ビット PowerPC といえば，かつて PowerPC 620 
が計画されたが実現には至らなかった.しかし，マイ 
クロアーキテクチャを少し変更して p ower 3 として登 
場した. PowerPC の64ビット実装の最初は，1995年 
に登場した A 30 と呼ばれる AS /400 用の MPU である. 
A 30 は1個の CMOS チップと6個の BiCMOS チップの 
合計7チップからなる PowerPC 唯一のマルチチップ 
実装であえる. A 30 は1997年にシングルチップ実装 
の PowerPC RS 64 に置き換えられた.その後 RS 64- II ， 
RS 64- EI , RS 64 -IV と改良が続けられ， AS /400, RS / 
6000 S 80 シリーズなどのビジネス用サーバとして利 
用されている. A 30 はサーバ用なので，本来の Power 
PC とはいえない. 

さて， PowerPC の64ビット実装では，マシン状態 
レジスタのビット指定により，64/32ビットモードを 
切り替えることができる.セグメントサイズとページ 
サイズは32ビットモードと同様で，それぞれ， 256 M 
バイトと 4 K バイトである.このため，64ビットモー 
ドではセグメント数 （16 個から 64 G 個）とセグメント 
のビット幅の拡張 （24 ビットから52ビット）により仮 
想アドレス空間を実現する. 


なお PowerPC では，ユーザーが使用する64ビット 
の仮想アドレスを実効アドレスと呼び，システムが管 
理する80ビットの仮想アドレスと区別している.ア 
ドレス変換機構により，80ビットの仮想アドレスが 
64ビットの物理アドレスに変換される. 

PowerPC では実効アドレスの上位4ビットでセグ 
メントレジスタを選択していたが，64ビットモード 
では実効アドレスの上位36ビットで選択する. 36ビ 
ットといえば 64 G 個と膨大な数からの選択となるた 
め，すべてを主記憶にもっていたのでは主記憶があふ 
れてしまう.そこで，主記憶上にページテーブルと同 
様な形式のセグメントテーブルを置き， MPU 内部に 
TLB と同様の SLB (Segment Look-aside Buffer ) を内 
蔵してアドレス変換を行う.アドレス変換時に実効ア 
ドレスが SLB に存在しない場合， TLB ミスの発生時 
と同様にセグメントテーブルが自動的に検索されて 
SLB のエントリを置き換える. 

図21に64ビット実装時の PowerPC のアドレス変 
換を示す. 

まとめ 

MMU というものが',だいたいどのような働きをす 
るものか理解していただいただろうか.以上をおさえ 
ておけば，基礎知識としては十分である.個人的には 
x 86 アーキテクチャに思い入れはないが，図らずも 
x 86 のアーキテクチャの説明がかなりの部分を占めて 
しまった.アドレス変換やメモリ保護については x 86 
のやり方は特異にみえるが，現在のコンピュータアー 
キテクチャを語るうえではこれも必須な教養であろう. 
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第 5 章 MMU の基礎と実際 


RSTFfffWW セグメント方式 


• セグメンテーションの概念 

本書では仮想記憶の方式として，ページを単位とする 
ページング方式を中心に説明してきた.ここで，もう一 
つの主要な仮想記憶方式であるセグメント方式について 
説明しておこう.これは，セグメントを単位とするので 
セグメ ンテーション ともいう. 

セグメント方式はプログラムのモジュール分割と関連 
付けて説明されることが多い.プログラムというものは 
一つの メインルーチンといくつかのサブルーチンの集ま 
りである.マルチタスクを考えるとき，あるサブルーチ 
ンや（ときにはメインルーチンを）共通に使用すれば，メ 
モリの使用効率が向上する.セグメント方式ではメモリ 
割り当てをメインルーチンやサブルーチン単位に行うこ 
とを考える（図 A ). 

セグメント方式ではアドレスの指定を，ベースアドレ 
ス（開始アドレス）とベースアドレスからのオフセット値 
で行う.そして，すべてのメインルーチンやサブルーチ 
ンといったモジュールは，オフセット〇から開始され， 
データのアクセスもオフセットで指定するものと仮定す 
る.こうすることで，そのモジュールはメモリ内のどこ 
に配置しても実行可能になる.つまり，リロケータブル 
(再配置可能）となる.このため，モジュールごとに物理 
アドレスでベースアドレスを決定してやれば，同じオフ 
セットを有する別のモジュールをメモリ内の自由な位置 
に置くことができる.モジュール自体は自身がメモリの 
どこに割り当てられるかを意識する必要はない（図 B ) • 

セグメント方式では，仮想アドレスは，（物理アドレ 
スで示される）ベースアドレスを直接/間接的に指定する 
セグメント値と，セグメント内のオフセット値という二 
つの情報で規定される.このため，セグメント方式のア 


ドレスは2次元アドレスとも呼ばれる.一方，これまで 
述べてきた一つの情報で仮想アドレスを指定する方式の 
アドレスは，1次元アドレス，または線形アドレス（リ 
ニアアドレス）と呼ばれる. 

籲セグメント単¢5でのスワップ 

さて，大きなプログラムでは，コード部，データ部， 
スタック部が，それぞれいくつものセグメントに分かれ 
ている.このうち，ある時点のプログラムの実行に必要 
なセグメントのみをメモリに置いて実行すれば，物理メ 
モリの容量を越えるブログラムを実行することもでき 
る.これはメモリスワップの単位がセグメントになった 
だけで，ページングによる仮想アドレス方式と同じ効果 
を生む. 

セグメント方式では，ページングでの変換テーブルに 
相当するものが，セグメントテーブルである.セグメン 
トテーブルの各エントリは，メモリ保護情報，セグメン 
卜長（アドレスの上限），ベースアドレスといった情報を 
含む.図 C にセグメント方式でのアドレス変換を示す. 
MMU の動作としては次のようになる. 

1) 仮想アドレスに含まれるセグメント値でセグメント 
テーブルをアクセスする 

2) アクセスされたセグメント テーブルの エントリから 
ベース アドレスを得る 

3) ベースアドレスとセグメント内オフセットを結合し 
て物理アドレスを生成する 

x 86 アーキテクチャにおいて，セグメント値はセグメ 
ントレジスタに格納されているので，直接仮想アドレス 
の一部としては見えない.さらに，リアルモードにおい 
ては，セグメント値を4ビット左シフトしてベースアド 
レスとしている. 


プ□グラム1 物理アドレス空間 



図 A セグメンテーションの概念 図 B セグメンテーションの概念 


リミット ( A ) 


オフセツト0 


リミット⑻ 
オフセツト0 

リミット ( C ) 

オフセツト0 
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JSSSSSSSBi セグメント方式 ( つづき ) 



図 C セグメンテーシヨンのアドレス変換 



図 D セグメンテーション+ページング （ X 86) 


• x 86 でのセグメンテーション例 

x 86 アーキテクチャ（プロテクトモード）では，仮想記 
憶のアドレツシングにセグメンテーションとページング 
を併用している. 図 D に示すように，セレクタ値（セグメ 
ント値）とオフセツトからなる2次元アドレスがセグメン 
テーションによって線形アドレスに変換され，それを仮 
想アドレスとしてページングを行って物理アドレスを得 
る. 

セレクタとはセグメントテーブルへのインデツクス， 
セグメントテーブルの種類，要求特権レベルという三つ 
の領域からなる16ビツトの情報である. 図 E にセレクタ 
を示す. x 86 では実行中のセグメントの保護レベルが現 
在の実行レベルになることはすでに述べたが，セレクタ 
中の要求特権レベルは実行レベルの特権性を下げる効果 
がある.つまり，現在の実行レベルと要求特権レベルを 
比較して特権性が低いレベルのほうが現在の実行レベル 
とみなされる.通常は，レベル0(最高の特権性）となっ 
ている. 

• グローバルディスクリプタテーブルと 
ローカルディスクリプタテーブル 

セグメントテーブルにはグローバルディスクリプタ 
テーブル （ GDT ) とローカルディスクリブタテーブル 
( LD 丁）の2種類がある. GDT とは，システム内に一つだ 
け存在するセグメントテーブルのことで， OS や複数の夕 
スクから共通にアクセスされるメモリ領域を定義する. 


それに対し LDT は，タスクごとのメモリ領域を定義する. 
そして，セレクタのインデックスは， GDT または LDT 
内のエントリ（それぞれをセグメントディスクリプタと呼 
ぶ）を選択する.テーブルインデックスは，このセグメ 
ントのディスクリプタが GDT であるか LDT であるかを 
示す. 

GDT / LDT の各エントリは，セグメントディスクリプタ 
と呼ばれる.これは，32ビットのベースアドレス，20ビ 
ットのリミット値，その他の情報から構成される64ビッ 
卜のデータである. 図 f にセグメントディスクリプタを 
示す.セグメントディスクリプタのうち， G ( Granularity ) 
ビットはリミット値の単位を指定する . G = 0 なら単位は 
1バイトであり，セグメントの大きさは〇〜 1 M バイトと 
なる . G = 1なら単位は 4 K バイトであり，セグメントの 
大きさは〇〜 4 G バイトとなる . DPL (Descriptor Privi 
lege Level ) はそのセグメントの保護レベルである . DT 
(Descriptor Type ) はセグメントディスクリプタの示すセ 
グメントの種類(メモリセグメント，システムセグメント， 
ゲート）を指定する.メモリセグメントかシステムセグメ 
ント（またはゲート）かによって，セグメントディスクリ 
プタの TYPE 領域の意味が変わってくる.メモリセグメ 
ントではリード/ラィト/実行の保護情報を指定する.シ 
ステムセグメントでは LDT または TSS(Task State 
Segment ) という情報を指定する.ゲートではゲートの種 
類を指定する. 
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63 56 55 


40 39 


16 15 



1111 


メモ U セグメント 
ディスクリプタ 


AVL ： 自由に使用可能 
D :デフォルト 

(286 との互換性） 
G :グラニュラリティ 
(単位） 

P :プレゼント(存在） 
D :ディスクリプタ 
タイプ 


63 56 55 4〇39 16 15 0 



1111 4 12 1 4 


図 F 

セグメントディスクリプタ 


63 48 4740 39 32 31 1615 〇 



12 1 4 


図 G 

リニアアドレスから物理アド 
レスへの変換 


リニアアドレス 



しべージ 
| (4 K バィト) 


なお，メモリセグメントディスクリプタとシステムセ 
グメントディスクリプタにはセグメントのベースアドレ 
スが格納されている（オフセットは線形アドレスのオフセ 
ットと同じ）のに対し，ゲートディスクリプタにはポイン 
夕（セレクタ値とオフセット値）が格納されている.とこ 
ろで，セグメントディスクリプタのベースアドレスやゲ 
ートディスクリプタのオフセツトが下位と上位に分離し 


て格納されているのは80286との互換性のためである. 

セグメンテーシヨンの後はページングが行われるが， 
これは 他の MPU と 同様な機構なので詳細な説明 は 省略す 
る. 32ビットの仮想アドレスのビツト22〜31をデイレ 
クトリという単位として1レベル目，ビット12〜21をぺ 
ージ 単位として2レベル目のテーブルを引き，計2レベル 
のアドレス変換を行う（図 G ). 
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携帯機器ではとくに重要な 

低消費電力技術の原理 


「消費電力=性能」と考えられていたのは昔の話であ 
る.現在では EWS でさえも低消費電力を考慮してい 
る.つまり，低消費電力で高性能という要求が強い. 

低消費電力の利点は，システム構成の簡略化にある. 
電力が大きいと熱を発生する.すると熱により装置が 
誤動作するのを防ぐため，冷却機構の考慮が必要にな 
る.あるいは電源の問題もある.消費電力が大きいと， 
それに見合う電源供給が必要になるので，強力な電源 
装置が必要になる.当然，システムの規模も大きく価 
格も高くなる. 

これはパソコン （ PC ) の世界でも同様である.マ 
ザーボードから冷却ファンを取り除きたいというの 
が，第1の目的である.システム簡略化の次の目的は， 
携帯性の向上である.ノート PC では電池寿命の長さ 
が要である.そのためには，できるだけ消費電力が少 
ないことが必須となる.このためには， MPU だけで 
なく，周辺機器も低消費電力化する必要がある . MPU 
はその第一歩である. 

これらの要求を満たすため，1999年頃から低消費 
電カモードの採用が PC 用 MPU の売りの 一つに なっ 
てきている.たとえば， Crusoe の LongRun , AMD 
の PowerNow ! や Intel のモバイル Pentium DI の Speed 
Step などである. AMD の発表では SpeedStep は 7 W 
程度， PowerNow ! は 3 W 程度の電力が節約できるとい 
う （2000 年当時）.これでもけっこう画期的な値で， 
電力は従来の1/10以下になり，それにより電池寿命 
が10〜20 % ( SpeedStep の場合），あるいは30 % 
( PowerNow ! の場合）長くなる.しかし，性能低下も 
著しく，低消費電カモードは無効化して使用する可能 
性が高いというのが，もっばらの予測だった. 

現在，低消費電力技術をとくに必要としているのは 
携帯電話や PDA の分野である.この分野では電池駆 
動が常識であり，1〜15日程度の電池寿命を実現する 
ために， 10 mW 〜 200 m W の超低消費電力が要求され 
る.この要求を満たすのは，もはや PC 用の MPU で 
は不可能であり， ARM , MIPS , SH といった新しい 
アーキテクチャをもつ MPU の存在する意義がここに 


ある. 

ここでは，低消費電力を実現するための基本原理に 
ついて説明する. 

• 低消費電力の基本原理 

従来，いろいろな低消費電力技術が考案されてきて 
いるが，その基本原理はただ二つである.駆動電圧を 
下げることと動作周波数を下げることである. 

電力は駆動電圧と消費電流の積で計算される.つま 
り感覚的には， 

(電力）=(電圧） x (電流) 

=( 電圧） X( 電圧)バ抵抗値） 

. オームの法則 

であり，電圧の2乗に比例する.電力を下げるために 
駆動電圧を下げることは有効である.電圧が1/2にな 
れば電力は1/4になる. 

半導体の製造技術の向上につれて微細化が進み，低 
電力によるト ラン ジスタ駆動が可能になってきてい 
る.たとえば，製造プロセスが 0.25/im で 2.5V， 0.18 
"m で 1.8V， 0.13 で 1.5V, 0.10//m で 1.0V である. 
つまり，製造プロセスを進化させることで，自然と電 
力も下がっていく. 

また，電力は動作クロックの周波数(動作周波数）に 
比例することがわかっている.最近の MPU を構成す 
るトランジスタは CMOS 回路である. CMOS 回路は， 
スイッチング時の状態遷移時にのみ電流が流れる.つ 
まり，出力が変化するときのみ電流が流れる（図 A). 
これは状態をできるだけ変更しなければ電力が低減で 
きることを意味する. 

ところで，電気信号は動作 クロックに 同期して切り 
替わるので，動作周波数が高いほど電流値が大きくな 
る.つまり，動作周波数を下げることで，動作電流を 
下げることができ，結果として電力を下げることがで 
きる. 

以上をまとめていうと， CMOS 回路では一般に， 
(電力）= E (寄生容量） x (電圧） x (電圧） x (周波数） 
という関係が成立することが知られている.これを示 
す CY 2 / という表現はよく使われるので覚えておこう. 
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出力 



u 入力電圧 [ V ] 

図 A CMOS の NOT 回路の動作 


のに要する時間は 20 “S 以内で，アプリケーシヨンの 
実行に影響を与えることはないといわれている. 

AMD の K -6+， K 6 -DI +,モバイル Athlon 4, モバ 
イル Duron などに採用されている PowerNow ! も同様 
の技術である.そのオートマチックモードでは， 
MPU の負荷を自動的に判断して電力制御を行う.そ 
の具体的な手法に関しては公表されていない.動作電 
圧は， 2.0 V から 1.4 V の間を数段階に分けて変更する. 
動作周波数の変更は，バスクロック ( FSB ) に対する倍 
率を変更することで実現する. PowerNow ! は ， Long 
Rim と比較すると，動作周波数，動作電圧ともに変化 
の刻み幅が大きい.この意味で， PowerNow ! は， 
SpeedStep と LongRun の中間的な技術といえる. 

従来は，電圧の切り替えは2段階で十分としていた 
Intel も ， Pentium M ( Banias ) では Geyserville-HI ( 力'、 
イザービル m ) という技術で多段階の電圧切り替えを 
サボートするようになった. 0.85 V 時では 600 MHz 動 
作， 1.35 V 時は 1.6 GHz 動作が可能である.この間で電 
圧と動作周波数の組み合わせを指定できる.現段階で 
は 1 GHz という中間値が示唆されている.また ， Speed 
Step ( Geyserville - n ) とは異なり， Geyserville-ID では 
CPU 自体が負荷状況をモニタして，自動的に周波数 
と電圧の組を切り替えるようだ.つまり，ソフトウェ 
アの変更をしなくても，自動的に省電力制御を行うこ 
とができる. 

結局， LongRun , PowerNow!，Geyserville は同じ 
ようなシステム仕様に近づきつつある. 


Appendix 2低消費電力技術の原理 


LongRun , SpeedStep , PowerNow ! はどれも駆動 
電圧と動作周波数を動的に制御する技術であり，どの 
ような タイミングで 制御するのかが，実現方法の キー 
ポイント となっている. 

たとえば， Crusoe の LongRun は，電圧と周波数の 
組み合わせを複数用意し， MPU の負荷によって，そ 
れらを動的に変更するようになっている.負荷が軽い 
場合，まず，周波数を低下させ，その後，電圧を低下 
させる.ここでいちばん工夫を要するのが負荷の状態 
を判断する方法である.これは，アプリケーションプ 
ログ ラムが発行するコードモー フィング 要求の頻度を 
監視することで実現していると思われる.しかし，そ 
の詳細な手法は公開されていない. 

ここで，消費電力に関して興味深い報告を一つ.一 
般に MPU の動作周波数を上げると消費電力も増大す 
る.しかし，実際のシステムにおいては必ずしも正し 
くない.動作周波数が速いと周辺回路が動作する時間 
が短くなるため，結果として消費電力が少なくなる場 
合もある.ただし，これは周辺機器が同時動作してい 
る通常動作時の消費電力の話である.長い期間の電池 
寿命に効いてくるのは，主として，スタンバイやサス 
ペンドなど待機時の消費電力である. 

• 動作電圧の動的制御 

この方法は単純である.供給する電源電圧を上げ下 
げするだけである.当然， レギュレー タなどの外部回 
路の補助が必要である.また， MPU が負荷状況を外 
部に通知する手段が必要である.これが，電圧を上げ 
下げするタイミングとなる. 

Intel のモバイル Pentium ID で採用された Speed 
Step は複雑な制御をしない • AC 電源をタトしたときの 
み，自動的にクロックと電圧を2段階に制御する. 
650 MHz または 600 MHz 時は 1.6 V で動作し， 500 MHz 
時は 1.35 V で動作することで，消費電力を削減する. 
2001年7月に公開された Enhanced SpeedStep では， 
ソフトウエアで明示的にモード切り替えを行うことも 
可能である.これはモバイル Pentium 4- M で採用さ 
れた. 

Transmeta の Crusoe ( TM 5400) では，電力管理用 
に5本の制御信号があり，32段階の電力制御が可能で 
ある.これは，主として，電圧制御用である.電圧は 
1.1 V 〜 1.6 V の間で0.05 V 刻みに変化できる.一方，動 
作周波数は自動的に変動する. 200 MHz 〜 700 MHz の 
間を 33 MHz 刻みで変化する. MPU の負荷の変動は 
0.5 " s ごとに検出可能であるという.電圧を変更する 





〔 G 〕^ 賴 GSOIAIO 
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表 A 電カモード 


モード 

PLL 

内蔵周辺 ユニット 

CPU コア 

リアルタイム 
ク〇ック 

割り込み制御 

ユニット 

バス 制御 

ユニット 

その他 

フルスピード 

ON 

ON 

ON 

ON 

選択可能‘ 

ON 

スタンバイ 

ON 

ON 

ON 

ON 

選択可能 

OFF 

サスペンド 

ON 

ON 

ON 

OFF 

OFF 

OFF 

EX サスペンド 

OFF 

ON 

ON 

OFF 

OFF 

OFF 

ハイ ノく； f 卜 

OFF 

ON 

OFF 

OFF 

OFF 

OFF 


ON : クロックを供給する OFF : クロックを停止する * : CMU (クロックマスクユニット）で選択 


( a ) Vr4 131 の電カモード 


モード 

コ ア 

メモリ 

電力 

Run モードへの復帰 

Run 

クロック ON 
電力 ON 

クロック ON 
電力 ON 

アブリケーシヨン依存 


Standby 

クロック OFF 
電力 ON 

クロック OFF 
電力 ON 

リーク電流 

割り込みデバッグ要求 

Dormant 

クロック OFF 
電力 OFF 

クロック OFF 
電力 ON 

メモリからのリーク電流 

ソフトリセット 

Shutdown 

クロック OFF 
電力 OFF 

クロック OFF 
電力 OFF 

ほぼゼロ 

リセット 


( b ) ARM 11 の電カモード 


モード 

コア 

UR AM レジスタ 

I/O 

電力 

Run モードへの復帰 

Active 

電力 ON 

電力 ON 

電力 ON 

〜 150 mA 


R ( Resume ) -standby 

電力 ON 

電力 OFF 

電力 ON 

〜100 "A 

割り込み 

U ( Ultra)-Standby 

電力 OFF 

電力 OFF 

電力 ON 

ほぼゼロ 

パワーオンリセット 


( c ) SH-X の電カモード 


• 動作クロックの制御 

最近は，ほとんどすべての MPU が PLUPhase 
Locked Loop ) を内蔵し， PLL からクロックが供給さ 
れる. PLL は，原発振 （ FSB クロックなど）を遁倍す 
ることで，安定した高い動作クロックを生成する.動 
作クロックの制御は， PLL の遁倍率を変更すること， 
または， PLL の出力を分周することで実現できる. 
しかし，この手法は Motorola が特許を取っており， 
特許侵害を避けるため他社製 MPU での実現方法は意 
図的に不明確になっていることが多い. 

(1) 静的制御 

これは，携帯電話の待ち受け時など， MPU が高速 
で動作する必要がないことが分かっている場合，ソフ 
トウ ェアに よって明示的に動作 クロック を分周して低 
下させる方法である.専用命令の実行，あるいは，レ 
ジス タ設定によって クロックの 分周比を変更する. 

(2) 動的制御 

これは，ハードウェアによって MPU の負荷状況 
を監視し，動作クロックを変動させる方法である. 
T ransmeta の LongRun や AMD の PowerNow ! で実現 
されている. 


MPU 内のハードウェアによる監視を行わなくても， 
専用の入力端子を用意して実現する方法も考えられ 
る.もっともこれは，監視回路を MPU 外部に追い出 
したのと同じことであるが'. 

•クロック供給の制御 

通常， MPU はいろいろなユニットの集合体で実現 
されている.そこで， MPU の動作に必要なユニット 
にのみクロックを供給する方法がある. 

(1) 静的制御 

これは，低電カモードとして専用命令で提供される 
ことが多い.低電カモードに移ると MPU は待機状態 
に入る.そして，割り込みが入ると待機状態から抜け 
出す.低電カモードには，クロックを供給する程度 
に応じて，スタンバイ，ウェイト，サスペンド，ハ 
イ バー ネートな どと固有の名称が付けられ ている. 
たとえば， NEC の Vr 4131 は表 A ( a ) に示す五つの電 
カモードをもっている.これらの動作モードには， 
STANDBY , SUSPEND , HIBERNATE といった命 
令を実行することで移行する.また， 表 A ( b ) に示す 
ように， ARM 社の ARM 11 でも同様の電力管理を実 
現している. 
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Appendix 2 低消費電力技術の原理 


図 B ゲーテッドクロック 



また， MPU によってはクロック制御ユニットをも 
つものもある.これは，各ユニットへのクロック供給 
を，ソフトゥヱアによって明示的に制御しようとする 
ものである. MPU に備わっている機能ユニットでも， 
アプリケーションによっては，まったく使用しないユ 
ニットがある.これらのユニットにクロックを供給す 
るのはむだなので，明示的に動作を止めようという考 
え方である.ルネサステクノロジ（旧：日立製作所）の 
携帯電話向け SH-Mobile ( SH 3 -DSP をコアとする省電 
カプロセッサ群）では，自動的に（？），各周辺ユニッ 
卜に供給するクロックを停止できるようだ〔表 A ( c )〕. 
(2) 局所的な動的制御(ゲーテッドクロック） 

低消費電力に関しては，電圧や周波数だけでなく， 
MPU のシステム設計の段階で，フリップフロップ単 
位に低電力のしくみをもたせる方法もある.これは， 
マスククロック または ゲー テッドクロック （あるいは 
クロック ゲーテ イング） と呼ばれる手法で，必要な 場 
合にしか フリップフロップにクロック を供給しない技 
術である. フリップフロップ 内部では， クロックの 変 
化に応じて状態を更新することで電力を消費する•こ 
のクロックを， CMOS 回路の状態遷移に必要な最小 
限の期間しか動作させないという技術である. 

具体的には，多ビットのレジスタやバッファに対し， 
選択信号（リード信号やライト信号）が出力されてい 
るときのみ，クロックを供給する（図 B ). もっとも， 
リードの場合はフリップフロップの値を読むだけ（状 
態を変えない）なので，クロック供給の必要はない. 
また，1ビット程度のレジスタ（フリップフロップ）で 
は，クロックマスク回路の規模のほうが大きくなるの 
で，意味がない.現状，とくに低消費電力を意識する 
場合は，3〜4ビット程度以上のレジスタの場合は， 
ゲーテイツ ドを行うようである. 


(3) 大局的な動的制御(ゲーテッド CTS ) 

MPU の内部回路にクロックを供給する場合，場所 
によってクロック間の遅延がないようにすることは非 
常に重要である.そのために，類似した機能をもつ回 
路に対して共通のクロックツリーを設け，各クロック 
ツリー 内， 異なるクロックツリー間で，その下にぶら 
下がるフリップフロップに見えるクロックの遅延が一 
様になるようにバッファ挿入を行う（図 C ). これを 
CTS (Clock Tree Synthesis ) という. 

MPU が命令をデコードした時点で，その命令が駆 
動するクロックツリーを検出し，必要のないクロック 
ツリーへのクロック供給を根元から止めてしまう.こ 
のようにして低消費電力を実現する方式をゲーテッド 
CTS という.この手法は，ある程度大域的にクロッ 
クを止めるので，通常のゲーテッドクロックよりも効 
果が大きい.一般的に，マスククロックとかゲーテッ 
ドクロックという場合は，このゲーテッド CTS のこ 
とを指す. 

ゲーテッド CTS では，クロック供給はハードウェ 
アによって，自動的にクロック供給が行われる.しか 
し，大量のクロックマスク用ゲートでの遅延を揃える 
ために，高機能なツールが必要である.このため，最 
近までやりたくてもできない技術だった.大体，昔は 
クロックラインにロジックを揷入するなど非常識なこ 
とと考えられていた. 

ゲーテ ッド CTS がかなわなかった昔，長い間使わ 
れない回路へのクロック供給を止めるという中間解が 
考案された.これは，外部回路で I / O などの状態を監 
視し，アイドル期間がある程度続くようなら割り込み 
を入力して，割り込みハンドラ内でソフトウェアによ 
る電力制御（クロックを分周したり停止したりする）を 
行う手法である. 
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マスク信号 


図 C ゲーテッド CTS 



(4) その他の技術 

MPU の内部回路はすべてが最高の周波数で動作す 
る必要はない.クロックドメイン （一つの クロックが 
管理する領域）ごとに，処理の性質に応じて最適な周 
波数を選択することで，消費電力を最適化できる.た 
とえば，パイプラインを駆動するクロックは最高周波 
数であることが要求されるが，周辺回路に供給するク 
ロックはそれほど高くなくてよい.とくに，割り込み 
のサンプリングは，かなり遅い周波数でも実用になる. 

また，究極的な方法として，使用していないユニッ 
卜の電源供給を停止する方法がある.これに関しては， 
対象となるユニットの再起動に時間がかかるのが欠点 
である. MPU 内の電流逆流防止などの考慮も必要で 
ある. 

• 動作電圧と動作クロックの同時制御が主流 

近年，低消費電力を売りにする MPU は，動作電圧 
と動作クロックの両方をプログラムの負荷によって最 
適な値に設定できるようになっている. 

動作クロックの変更は，先に説明したように，比較 
的簡単に実現できるので昔から行われている^.し 
かし，動作電圧の変更は容易ではない. MPU として 
は動作電圧を変更できるタイミングを通知することし 
かできない.実際に動作電圧を変更するのは外部回路 
の役割である.この場合，多段階の電圧に対応したレ 
ギュレータ回路が必要になる. 


また， MPU 自体も動作電圧を変更できるように設 
計していなければならない.通常の MPU は動作電圧 
が一意に定められている（変動誤差は±10%程度)•し 
かし，電源電圧を可変にするには，ある程度の範囲を 
もった動作電圧を許可しなければならない.たとえば， 
1.0 V 〜 1.6 V の場合，変動誤差があるので，実際には 
0.9 V 〜 1.7 V 程度の範囲で正常動作が保証されてなけ 
ればならない. 2003年の時点で，このように広範囲 
の動作電圧に対応した MPU は Intel の XScale と IBM 
の PowerPC 405 LP だけといわれている（ほかにもある 
とは思うが）.実際には，次に示す ARM 11 や，今後 
発表される低電力 MPU は，そのような電圧範囲を考 
慮したものになってくると思われる. 

• ARM の旧 M(Intelligent Energy Manager ) 
ARM 社の提供する IEM 技術は，動作電圧と動作周 
波数を同時に制御する技術である.基本的な手法は， 
OS に IEM ソフトを追加して負荷状況を監視して，ど 
の程度まで電圧，周波数を下げられるか予想すること 
で最適な電圧と周波数を決定する.この場合，やみく 
もに電圧や周波数を下げるのではなく，アプリケーシ 
ヨンの品質を落とさない（画面が乱れるようなことを 
しない）程度を見きわめられるのが特徴である.具体 
的には，アプリケーシヨンのアプリごとにポリシと呼 
ばれるシステムの動作状況の監視プログラムを提供 
し，最適な動作を決定する （図 D ). 


注1:とある低消費電カプロセッサの シンポジウムで， 各社の説明員に Motorola の特許をどのように回避して いるの か聞いてみた.し 
かし，誰もそのような特許の存在を知らなかったのが驚きである. IBM の説明員は，そんな特許があったとしても， Motorola と 
は クロスライセンスを 結んで いるので 心配ないと豪語 （？） していた. 
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EM ソフトウェア 
(システム状況を監視) 


要求性能 
レベルを 
計算 



図 D IEM の概要 


動的電圧制御 


「ポリシ」とはアプリケーシ 
ヨンと1対1に対応して追 
加されるソフトウェアコン 
力、—ネノト_ 


System on Cmp(Soc) 


ARM コア 


アプリケーション 


OS 


IEM 

ソフトウェア 


電圧 


性能要求 


IEM 

コント□—ラ 
(ハードウェア) 


CPU クロック 


電力 

コント □— ラ 


動的 
クロック 
生成器 



設計ごとに仕様が異なるので 1 
ベンダが設計する必要があるッ 


ARM が提供する 
コンポーネント 


SoC 設計者が 
提供する 
コンポーネント 


図 E 

IEM のシステム構成 

図 E に IEM 使用時のシステム構成について示す. 
電圧制御 （Power Management Unit : PMU ) は外付 
け，周波数変更（動的クロックジェネレータ）は SoC 
に内蔵となる.実際の実装では， ARM コアの周辺回 
路として電圧クランプ回路とレベルシフタが必要で 
ある. 

IEM を使えば， ARM の SoC の電力を75%削減可能 
であり，電池寿命を25%延ばせる. ARM 社が公表し 
ているムービープレーヤの例では， IEM なしで実行 
した場合に対し， lOfps , 15 fps , 20 fps の画質に対し， 
それぞれ，45%, 37%，32%の電力が削減できる. 
これは CPU コアをアイドル状態にするだけでは得ら 
れない電力効率だそうだ. 

簡易版として，ソフトウェアのみで制御する IEM - 
One が利用可能である.最大限に電力を削減するため 
には，ソフトウェアとハードウェアの両方で省電力を 
実現する IEM - Two を提供する.これらは ARM コア 
とは別個のライセンスとなる. 


•キャッシュの電力制御 

現在の RISC プロセッサはキャッシュの存在が必須 
である.しかし， MPU の内部でキャッシュがもっと 
も電力を消費する部分である.消費電力の半分がキャ 
ッシュによるものといっても過言ではない.このため， 
完全低消費電力を実現するためには，ゲーテッドクロ 
ックなどで，キャッシュ以外の部分の低消費電力化を 
行うだけでは不十分で，キャッシュそのものの電力を 
削減することが重要になる. 

(1) ブロック分割 

これは，キャッシュメモリを複数のバンク（ブロッ 
ク）に分割して，必要なブロックのみを活性化してア 
クセスする方法である.具体的には，各メモリバンク 
は選択信号をもち，キャッシュをアクセスするアドレ 
スの一部分をデコードすることにより，活性化するバ 
ンクを選択する.キャッシュの電力制御の方法として， 
ごく普通に行われている. 

キャッシュメモリは SRAM で構成される . SRAM 


動的クロック 
生成 


IEM 

八ードウエア 


Appendix 2低消費電力技術の原達 
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図 F SRAM の構成 



は，図 F のようにメモリセルを2次元に配置し，アド 
レスを行（ロウ）アドレスと列（カラム）アドレスに分割 
して，アクセスするメモリセルの位置をデコードする • 
行選択で選ばれた複数のメモリセルが，ワード線を活 
性化することにより記憶していたデータとその反転デ 
一夕をビット線に出力し，それをさらに列選択で選ん 
だものをセンスアンプで増幅し読み出す. 

ブロック分割は，行選択をさらに細かく選択して行 
うことである.つまり，一部のワード線しか活性化し 
ない.メモリセルはフリップフロップに入出力用の 
ゲートを付加したものであり，このゲートはワード線 
を活性化して駆動する.駆動するメモリセルが少ない 
ほど消費される電流が少ないのは明らかで，結果とし 
て低消費電力を実現できる. 

また， キャッシュのタグ RAM と データ RAM を独 
立してアクセス可能にし，タグチェックでヒットした 
データ RAM のみを活性化すると，さらに消費電力を 
低下させることができる.しかし，タグ RAM の値を 
見ないとデータ RAM にアクセスできないので，キャ 
ッ シュの アクセスタイ ミ ングを苦しくして 速度 低下に 
つながるおそれがある. 

(2) ウ I イ予測 

これは，ウェイセットアソシアテイブキャッシュ 
において，ヒット/ミスの判別時にすべてのウェイの 
内容を同時に読み出すのではなく，予測した順番でゥ 
ェイを読み出す方法である.キャッシュを同時に読み 
出さない分，電力が少なくなる.この場合，予測を正 
しく行わないと，キャッシュアクセスに時間がかかつ 
てしまうが， スーパー スカラ構成を採る場合は，リザ 


ベー シヨン ステー シヨン（早い話が命令キュー）でその 
ロス時間も供給されてしまうといわれている. 

また，ウェイ予測も，タグ RAM の値を見ないと 
データ RAM にアクセスできないので，速度低下につ 
ながるおそれがある. 

ウェイ予測に関しては，基本特許が多く出ているの 
で，安易に採用することは難しいと思われる.しかし， 
堂々とウェイ予測を謳う MPU が発表されている現状 
を考えると，抜け道はいくらでもあるのだろう. 

(3) キャッシュの階層化 

キャッシュは，通常， L 1 キャッシュ， L 2 キャッシ 
ュ， L 3 キャッシュと階層化して使用される.これは， 
キャッシュのアクセス時間と内蔵できるキャッシュサ 
イズとの兼ね合いで分割されていることが多い.つま 
り， L 1 キャッシュ， L 2 キャッシュ， L 3 キャッシュの 
順にキャッシュサイズが増加していくのが普通であ 
る.そして， L 1 キャッシュは L 2 キャッシュの内容の 
一部を， L 2 キャッシュは L 3 キャッシュの内容の一部 
をキャッシングする（ピクテイムキャッシュはそうな 
ってないが). 

このような階層構造は消費電力を下げる効果もあ 
る.一般的に，アクセスするキャッシュのサイズが大 
きいほど電力を消費するので，時間的，空間的に，で 
きるだけ少ないサイズのキャッシュへのアクセスを優 
先することで低消費電力化を実現できる.この方式は， 
特殊な形態のブロック分割といえるかもしれない. 

アドレス変換に使用する TLB では，その内容をキ 
ャッシングしたマイクロ TLB を最初にアクセスする 
ことがあるが，これも同じ発想である. 




アドレス 


列アドレス行アドレス 
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Appendix 2 低消費電力技術の原理 


図 G nMOS トランジスタ 


ゲート 


配線 ゲート酸化膜 配線 


ソース 
( n 型半導体) 


チャネル 


ドレイン 
( n 型半導体) 


SOI 層 


シリコン 
( p 型半導体) 


• トランジスタレべルの低消費電力化 

この分野は筆者の専門ではないので簡単に説明する. 

トランジスタの集積度は ムーア の法則にしたがって 
増大してきた.1971年に登場した4004と最新の 
Pentium 4 を比較すると，動作周波数は約2万倍に， 
トランジスタ数は約2万4000倍にまで増大した.しか 
し，動作電圧は低下しているが，動作周波数とトラン 
ジスタ数の増加とともに消費電力も増加している.こ 
の消費電力が MPU を発熱させる要因となっている. 
Intel の試算では， MPU の発熱は，2007年には核反応 
炉と同レベルになり，2010年を過ぎた頃にはロケツ 
卜の噴射口に匹敵し，ほどなく太陽の表面温度に等し 
くなるという.その意味でも，トランジスタの低消費 
電力化は必須である. 

(1) リーク電流 

半導体製造プロセスの微細化が進むと，当然，トラ 
ンジスタは小さくなる.トランジスタは，シリコンの 
上に，シリコンと逆極性のソース領域とドレイン領域 
を形成し，それをゲートでつなく、 図 G ). ゲートに電 
圧をかけるとソースとドレインの間に電流が流れ，こ 
れがスイツチのように働く. 

しかし，微細プロセスでは，ゲート長が短くなり， 
トランジスタが導通し始める電圧（しきい値： V th ) が 
低下して，ゲートに電圧をかけなくても漏れ電流（リー 
ク電流）が流れてしまう.このリーク電流（オフリーク 
電流，または，チャネルリーク電流）のせいで，トラ 
ンジスタが動いてなくても，電力を消費してしまう. 
また，これでは，トランジスタが〇 N なのか OFF な 
のか判別できないので，正常動作のためには，リーク 


電流を超える電流を流す必要がある.これも消費電力 
が増大する原因となる. 

あるいは，ゲート長の縮小化にともない，ゲート酸 
化膜(絶縁膜）もほぼ比例して薄くする必要がある.し 
かし，膜厚が薄くなることにより，トンネル効果で， 
絶縁膜を通して流れるリーク電流（ゲートリーク電流） 
が無視できなくなる. 

オフリーク電流とゲートリーク電流は，消費電力を 
増大させる要因になる.これは，電池駆動の機器にお 
いてはとくに深刻な問題であり，リーク電流を削減す 
るための手法がいろいろ考案されている. 

リーク電流を低減させる抜本的な方法を以下に示す 
が，とりあえず行われるのが，微細プロセスになるほ 
ど動作電圧を下げるという方法である.トランジスタ 
を駆動する電圧が低ければ，流れる電流も小さく，消 
費電力が下がるという理論である（消費電力は電圧の 
2乘に比例する）. 

(2) オフリーク電流対策 

オフリーク電流対策としては， ソース やドレインを 
形成するシリコン層の厚さを薄くする方法がある.シ 
リコン層に ソース やドレインを形成すると，その影響 
による空乏層 (depression region ) 注 2 の広がりがシリ 
コンの厚みに対して小さく，空乏化されてないシリコ 
ンがゲートの下に残る.このシリコンが フローテイン 
グボディ（どこにも接続されていない電極）となり，そ 
の電位がトランジスタ特性に影響を与える.シリコン 
層を薄くしてゲートの下のシリコンを完全に空乏化す 
ると フローテ ィングボディがなくなり，また電流が通 
過できる範囲が狭められる（抵抗が増える）ため，オフ 


注2 :電荷を運ぶキャリア（電子または正孔）が存在していない領域のこと.空乏があると電流の流れが惡くなる. 
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リーク電流を低減できる.しかし，シリコン層の厚み 
はに影響を与えるので，これを薄くするとルが下 
げられる反面，トランジスタの制御が難しくなる•し 
たがって，やみくもにシリコン層を薄くすればいいと 
いうものでもない. 

Intel は完全空乏型のシリコン層を使用することで， 
部分空乏型よりもオフリーク電流を1/100にできると 
発表している.このトランジスタは完全空乏型基板卜 
ラン ジスタ (Depleted Substrate Transistor ) ,略して 
DST と呼ばれる. DST では， V ,/,を下げられるので， 
トランジスタの動作電圧を低減したり，トランジスタ 
の ON / OFF 動作を高速化したりするのに役立つ. 
DST では，部分空乏型 SOI トランジスタとは異なり， 
フローテ ィングボディ効果が発生しないので，従来の 
トランジスタと同じ方法で回路設計が行えるのが利点 
であるとして， IBM を牽制している. 

(3) ゲートリーク電流対策 

ゲートリーク電流対策としては，ゲート酸化膜の素 
材を変更することが考えられている.ゲート酸化膜と 
は， ソースと ドレイン間を流れる電流をゲートに流れ 
込まないように絶縁するための絶縁膜で，この部分が 
薄ければ薄いほどトランジスタは高速に動作する.し 
かし，ゲート酸化膜が薄くなるとゲートリーク電流が 
増加する.そこで，ゲート酸化膜を厚くする方法が考 
えられるが，できることならある程度の薄さも維持し 
たい. 

これを解決するため，ゲート酸化膜に誘電率の高い 
( high - k ) 材料を用いることで，誘電率の比率で酸化膜 
を厚くすることが可能になり，リーク電流が減る•こ 
れは，高速化技術のために提案されている low - k 材料 
および銅配線とは対極的であるが，こちらは配線に関 
する技術である.配線に関しては，寄生容量が電流の 
流れを妨げ，電力を消費する.このために，層間膜は 
誘電率の低い材質 ( low - k ) や電気的抵抗の少ない銅配 
線が好まれるのである. 

ゲート酸化膜に何が最適な素材であるかは，半導体 
メーカーが力を入れて研究して いる 分野であり，現状 
でこれといった決定版はない.現在，ゲート酸化膜に 
は 二 酸化 シリコン （ Si 0 2 ) を 使う ことが 多い. high - k の 
絶縁膜の目的は，物理的には 厚い 膜で， 薄い Si 0 2 と 
同じ電気特性（ゲート容量）を実現することでる.しか 
し Intel は，将来的には，誘電率が 二 酸化 シリコンの 
約5倍の 酸化 ジルコニウム（ジルコニア： Zr 0 2 )， 酸 
化 ハフニウム （ Hf 0 2 ) ， 二 酸化 チタン （ Ti 0 2 )， 五 酸化 


タンタル ( Ta 2 0 5 ) などを使用することを提案している. 
AMD は誘電率が約2倍の窒化シリコン ( Si 3 N 4 ) を使用 
することを提案している.これらを使用することで， 
二酸化シリコンと同じ電気的性能を発揮しながら， 
ゲートリーク電流をその1/10,000〜1/1,000に抑える 
ことができるといわれている. 

ただ， high - k の絶縁膜は，二酸化シリコンとは違つ 
て製造が難しいうえ，シリコンとの相性が悪く，信頼 
性に問題があるといわれている.また， high - k の絶縁 
膜では， Si 0 2 に比べるとキャリア（電子や正孔）の移 
動度が落ちる（つまり，動作速度が落ちる）という問題 
もある.これらを解決するのが今後の課題である.新 
しいゲート絶縁膜が主流になる時期は，早くても 
ゲート長が 65 nm の世代だろうといわれている. 

High - k 絶縁膜の問題を解決するための一つの手段 
がメタル（金属）ゲートである.従来のゲート電極はポ 
リシリコン（多結晶 Si ) を使用していたが， NMOS 卜 
ランジスタや PMOS トランジスタに最適な金属素材 
を使用してゲートを作る.メタルゲートは抵抗が小さ 
く，ゲート空乏化が発生しないので，トランジスタ性 
能は劣化しない. 

メタルゲートの材質には今後も研究の余地が残され 
ているが， NMOS では TaSiN ， PMOS には TiN が使 
われることが多いようである. 

2002年12月に開催された IEDM (International 
Electron Device Meeting ) では， high - k の絶縁膜とし 
て Hf 0 2 が一般的になつた感がある.これの膜質の改 
良や製造性の改善のために N や Al ， Si を添加する論 
文が多数提出されている. 

High - k 酸化膜とは別の考え方はバックゲートバイ 
アスである.トランジスタのゲートに逆方向（バック 
ゲート）の電圧をかけるとゲートを流れる電流が抑制 
される.このバイアス電圧をうまく調整すればゲート 
リーク電流を理論的にはゼロにできる•この技術は 
IBM や Intel が積極的に研究している. 

Transmeta は Efficeon に搭載する LongRun 2 でトラ 
ンジスタの V ,/,をソフトウエアで動的に制御すること 
でゲートリーク電流を削減す ると 発表して いる. 高速 
化のためには W を低くする必要があるが，リーク電 
流が増加する.とくに 90 nm プロセスでは％が低く 
なるため，リーク電流の削減は重要である. 逆に V ", 
を上げるとリーク電流は少なくなるが高速動作は期待 
できな V 、. LongRun 2 CMS (Code Morphing 
Software ) でプログラムの負荷を監視し，負荷が少な 
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い場合は W を上げる技術である.既存の LongRun を 
使った場合， Efficeon のゲートリーク電流は 144 mW 
であるが， LongRun 2 では 2 mW に下げられるという. 

LongRun 2 を実現する具体的な手法は明らかにされ 
てないが， Transmeta によると「回路にほんのわず 
かな改良を加えた」ということだ.しかし，大方の見 
方としては バック ゲート バイアスの 変形ではないかと 
考えられている. バック ゲート バイアス 電圧によって 
Vth を相対的に制御できる. 

なお，2003年10月の Microprocessor Forum で公表 
された LongRun 2 技術は「全体像の10%にすぎない」 
という話であり，さらに画期的な電力低下技術が隠さ 
れている可能性がある. 

(4) SOI 技術 

あるいは， SOKSillicon On Insulator :絶縁体の上 
のシリコン）という技術で，ソース-ドレインとシリコ 
ン基板の間に二酸化シリコンによる極薄の絶縁層を組 
み込む方法がある. SOI 層を加えることで，シリコン 
基板とソースあるいはドレインの間の寄生容量を低減 
することにより，ソース-ドレイン間の抵抗を減少さ 
せ，電流の流れを20〜30%よくする技術である.同 
じ性能(電流の量）であれば，電源電圧を下げることに 
より消費電力をほぼ半減できる.まあ，これは，低消 
費電力というよりも高速化技術である. 


Appendix 2低消費電力技術の原理 


SOI という技術は，30年以上前から半導体メーカー 
が研究を している. その中でも有名なのは， Harris 
Semiconductor 社の SOS (シリコンオンサフアイヤ）で 
ある.しかし，これは非常に高価なため実用にならな 
かった.現在は，二酸化シリコンを使用して比較的安 
価に作られているが，今後も新たな材質の発見が望ま 
れる. 

まとめ 

今後，ますます重要な技術になると考えられる低消 
費電力技術に ついて 述べてきた.その根本原理は，低 
い動作周波数と低い動作電圧を実現すること，回路の 
内部状態をできるだけ変化させないこと，一度に駆動 
する回路を減らすことである.これらを組み合わせる 
ことで，今後もいろいろな制御方式が考案されていく 
ことと思われる.トランジスタレベルでの低消費電力 
化に ついては， 現在発展途上というところだろうか. 
また，トランジスタレベルでの低消費電力化技術は高 
速化技術と組で研究されているので，高速化技術の章 
も参照してほしい. 

参考文献 

1) 中川靖，「64ビット RISC マイクロプロセッサ Vr 4131」， 
『NEC Device Technology 』， 2001， No .74 
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割り込みには， MPU の動作とはまったく非同期に外部のデバイスが要求するハードウェア割り込みと，プログ 
ラム中に明示的に分岐命令を記述するソフトウェア割り込みがある.また，プログラムの実行結果によって発生 
する予期しない事象を例外と呼ぶ_ハードウェア割り込みは外的要因で発生するが，ソフトウェア割り込みと例 
外は MPU の内的要因で発生する.例外と割り込みの区別はそれぞれの MPU アーキテクチャ上の決め事であり， 
その本質は同じと考えられる. 


15年ほど前，筆者は割り込みというものの概念が 
よくわからなかった. 

MPU は与えられた処理を順次こなしていく.その処 
理に割り込んで，いったい何をするのか.処理 A をこ 
なしながら処理 B も行う必要があるのなら， A と B を 
同時に実行するようにプログラムすればよいではな 
いか. 

例外についても同様に，行っていることは固定アド 
レスに分岐して戻ってくることである.それはサブ 
ルーチンコールとイ可が'違うのか. 

以降の解説は，15年を経て筆者が感じ取った割り 
込みと例外の意義やしくみである. 

7 MPU における割り込みと例外 

♦割り込みとは何か 

割り込みとは，一連の仕事をしているときにその仕 
事を中断させて別の仕事をさせることである.割り込 


みされる側からすると，予期しないタイミングで発生 
するのが特徴である. 

MPU でアプリケーションプログラムを実行する場 
合，通常は割り込みを意識しない.割り込みが発生す 
るとそれまでの処理は中断され，特定の割り込み処理 
を行って元の処理に復帰する.アプリケーションプロ 
グラム側は割り込まれたことに気付かない（図1 ). 

MPU のプログラム実行順序としては，図のように 
一筆書き状態の順番でプログラムを実行しているにす 
ぎないが，人間の時間感覚で見ると，本来の処理と割 
り込み処理が平行に実行されたように見える.本来の 
プログラムが気付かないうちに並行動作が行われる… 
…ここに割り込みの本質がある. 

• ハードウェア割り込みとソフトウェア割り込み 

割り込みは大きく分けて， MPU に接続された外部 
のデバイスが要求するハードウェア割り込みと，プロ 
グラムで明示的に要求するソフトウェア割り込みの二 
つがある. 


図1 

割り込み処理の概念 

(ハードウエア割り込み) 



ジャンプ命令は 
どこにもない！ 


本来の処理実行順序 

MOV CX, 4 
ROL DX, 4 
MOV AL,DL 
AND AL,OFh 
ADD AL,■0, 
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第 6 章割り込みと例外の概念とその違い 


図2ソフトウェア割り込み 


本来の処理 実行順序 



ハードウェア割り込みとは，図1のように外部から 
の要因でジャンプ命令などを使わずにプログラムの実 
行が分岐することである.ハードウェア割り込みはア 
プリケーシヨンプログラムには見えない.外部のハー 
ドウェアの状態が変わったことを検出し，それにした 
がって処理が必要な場合に利用する.一般的に，外部 
割り込みは MPU の処理とは非同期に行われる. 

一方，ソフトウェア割り込みは，割り込み処理へ切 
り替える命令をアプリケーシヨンプログラム中に明示 
的に記述する（図 2). この意味で，ソフトウェア割り 
込みはサブルーチンコールのようにもみえる.たいて 
いの MPU には，ソフトウェア割り込みを発生させる 
ためのトラップ命令やシステムコール命令が用意され 
ている. 

• 例外とは何か 

一般的に割り込みは，プログラムの実行とは無関係 
(非同期）に発生するが，プログラムの実行結果によっ 
て発生する予期しない事象がある.たとえば， ゼロ 除 
算， オーバフロー， アドレス エラー，ページフ ォルト 
( TLB ミス）などである.これらの発生によってもプ 
ログラムの処理は中断され，それら予期しない状態を 
処理するプログラムが実行される（図 3). 

これらは，要因がプログラムの実行そのものにあり， 


外部からの要因によって割り込まれたわけではないの 
で，とくに例外と呼ぶ. 

「例外」を辞書で引くと，「通例の原則にあてはま 
らないこと.一般の原則の適用を受けないこと.また， 
そのもの.」とある. コンピュータの 世界で もイメー 
ジは同じだが，命令の処理が通常と同じようには終了 
しない事象を表す. 

どのような事象が発生したときに例外となるのか 
は， MPU のアーキテクチャによって異なる.たとえ 
ば，定義されていない命令コードを実行すると，ある 
アーキテクチャでは例外となるが，あるアーキテクチ 
ャでは NOP と同じ動作となり，そのままプログラム 
を実行し続ける. 

• 割り込みと例外の区別 

要因発生後の動作，つまり割り込み処理へ分岐する 
動作は，割り込みも例外も共通である.しかし，割り 
込みの場合は元の プログラムに 復帰するのが前提であ 
るが，例外は場合によっては，致命的な事象と判断し 
て プログラム 処理を中止（ア ボー ト）する こと もある. 

事象発生後の挙動が同じという点で，割り込みと例 
外は言葉のうえでの区別のようにも思える.実際，割 
り込みと例外を同一視するアーキテクチャの MPU も 
多い.そのような場合，外的要因によるハードウェア 


図3例外の概念 


本来の処理実行順序 
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図 4 割り込みベクタテーブル 

割り込みを 外部 割り込み，内的要因による例外とソフ 
トウエア割り込みを 内部 割り込みと呼んで区別する. 

割り込みと呼ぶか例外と呼ぶかは，その MPU の 
アーキテクチャ上の決め事である.ここでは原則とし 
て，外的要因によるものを割り込み，内的要因による 
ものを例外として話を進める（とはいえ，「ソフトウエ 
ア例外」とはあまり呼ばないが…). 

•ベクタと八ンドラ 

割り込みが発生すると割り込み処理へ分岐するわけ 
だが，どこに分岐するかを示すものを割り込みベクタ 
と呼ぶ.そして，割り込み処理 ルーチンの ことを，割 
り込みハンドラと呼ぶ.また，割り込みと呼ぶか例外 
と呼ぶかに対応して，ベクタと ハンドラ も，割り込み 
ベクタ，割り込み ハンドラ， 例外べクタ，例外 ハンド 
ラと呼ばれる. 

•割り込みの受け付け， NMI とリセツト 

割り込みとは，本来の処理の途中で別の処理を行わ 
せることだが，処理の内容によっては，実際に連続し 
て実行しないと意味をなさない場合や，途中で割り込 
み処理が実行されては都合の悪い場合もある.そのよ 
うな場合は，割り込みの受け付けを禁止することもで 
きる. 


て実行を開始する（リセットベクタ）. 

また，ノンマスカブル割り込みという意味では，リ 
セットもノンマスカブルな割り込みといえる.しかも 
NMI よりも優先度が高く， MPU の中ではもっとも優 
先度の高い割り込みといえる. 

•割り込みベクタテーブル 

CISC 系 MPU の多くは，割り込みや例外に対する 
割り込みベクタの値，つまり割り込みハンドラのアド 
レスを自由に設定することができる.その割り込みべ 
クタをある決められた順序でメモリ上に並べたものを 
割り込みべクタテーブルと呼ぶ. 

多くの場合，割り込みベクタテーブルのベースアド 
レス，つまり先頭の割り込みベクタが格納されている 
アドレスは物理アドレスの〇番地である. MMU をサ 
ポートする MPU では，この割り込みベクタのベース 
アドレス（物理アドレスで指定する）を変更可能な場合 
が多い.そのため，割り込みベクタのベースアドレス 
を保持する特別なレジスタが用意されている.この 
ベースアドレスレジスタの値を変更することで，割り 
込みべクタテーブルを任意のアドレスに配置すること 
ができる（図 4). 

一方， RISC 系 MPU の多くは，割り込みベクタの 
値がアーキテクチャで一意に決められているので，割 
り込みべクタテーブルというものは存在しないことが 
多い.さらに，割り込みベクタの値は仮想アドレスだ 
が，対応する物理アドレスは1対1で決まっている（た 
とえば，アドレス変換されない）ことが多い. 


2 =1織要 


しかし，外的要因の中には非常に緊急性を有する事 
象もある.もしそれが発生した場合は，割り込まれる 
と都合の悪い処理であっても，その緊急の割り込み処 
理を実行する必要があるだろう.このような重要な割 
り込みは，割り込み受け付け禁止ができない割り込み 
として ノンマスカブル割り込み （Non Maskable Inter 
rupt , NMI ) を使う.通常，割り込みと呼ぶ場合は， 
ソフトウェアで割り込みの受け付けを禁止することが 
できる マスカブル割り込み のことをい う. 

MPU のアーキテクチャによっては，リセットも割 
り込みや例外に分類するものがある.割り込みベクタ 
がプログラマブルな MPU であっても，さすがにリセ 
ット時は特定のアドレスから実行を開始したり，特定 
アドレスのメモリを読み込み，その値をアドレスとし 


ここでは，ハードウヱア（外部)割り込みと例外の動 
作について解説する•以降ではとくに明記しない限り， 
ハードウェア割り込みを単に「割り込み」と示すこと 
にする.ソフトウェア割り込みについては，コラム1 
を参照してほしい. 

離割り込まれるプログラムの影響 
割り込みや例外は，割り込まれる プログラム 側から 
すれば，意図しない場所で秘密裏に処理される.この 
ときの動作はどうなっているのだろうか.まず， プロ 
グラムの 実行を規定する要因を考えよう.ある瞬間の 
プログラム を完全に再現するには， 

• プログラムの命令 コー ドと データ 
• プログラムでアクセス可能なすべてのレジスタの値 
• PC (プログラムカウンタ）の値 
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• SR (ステータスレジスタ）の値 
といったデータが一意に定まっていればよい.これら 
の情報をコンテキストと呼ぶ.ここで PC は，いうま 
でもなく，現在実行している命令コードのアドレスで 
ある. SR は， PSW(Program Status Word ) や PSR 
(Program Status Register ) とも呼ばれ，条件分岐用 
の条件フラグや実行レベルが含まれる （ x 86 でいうと 
ころの FLAG レジスタ）. 

これらのうち，プログラムの命令コードとデータは， 
そのプログラムの実行が終了するまで物理メモリまた 
は補助記憶上に存在しているので，とくに気にする必 
要はない.レジスタの値は壊されると困るので，割り 
込みハンドラでは，そこで使用するレジスタの値をス 
タックなどに退避しておき，例外ハンドラを抜けると 
きに退避しておいた値を書き戻してやればよい.レジ 
スタは割り込みハンドラで使用しないこともあるが， 
PC と SR の値は必ず変更される.つまり， PC と SR が 
プログラムの挙動を性格付ける. 

結論として，各レジスタや PC と SR を割り込み処 
理の前に保存し，割り込み処理を終了した後で元に戻 


してやれば，割り込まれたプログラムは何も知らずに 
処理を継続することができる. 

• 割り込み/例外発生時の動作 

実際に，割り込みや例外が発生したときの MPU 内 
の動きについて見てみよう（図 5). 多くの MPU では， 
割り込みや例外が発生すると， PC と SR を自動的に特 
定の場所に退避するようになっている.また，外部か 
ら割り込みアクノリッジ（ベクタ）を読み込む MPU も 
ある（詳細は，実際の MPU での動作の項目で説明）. 

CISC 系 MPU では，割り込みや例外が発生すると 
PC と SR を（割り込み用）スタックに退避し，割り込み 
からの復帰を指示する命令 ( RETI など)を実行すると， 
スタックから PC と SR の元の値を取り出して，新た 
に PC と SR に設定し直す. 

RISC 系 MPU では，スタックアクセス（ニメモリア 
クセス）を行うと処理速度が低下してしまうので，退 
避専用の特殊レジスタに値を格納する.割り込みハン 
ドラの終了を指示する命令は， PC と SR の値をこの特 
殊レジスタから取り出す.これらのレジスタは1組し 
か用意されていないのが普通で，多重に割り込みや例 


ソフトウェア割り込みとサブルーチンコール 


ソフトウェア割り込みは，トラップ命令やシステム 
コール命令などのように，ブログラムで明示的に記述し 
て積極的に発生させる割り込みである•ソフトウヱア割 
り込みは， OS が提供するサービスを得るためのシステ 
ムコ ー ルのインターフェースとして利用される.意味的 
にはサブルーチンコールと大差はない.それではなぜ， 
ソフトウェア割り込みというわずらわしい（わけでもな 
いが)手順を踏むのであろうか.それには少なくとも二 
つの理由がある. 

一つは実行レベルの問題である. Windows や Linux 
では，ユーザーブログラムは MPU の提供するユーザー 
モードで実行されている.それに対して， OS 内部は 
カーネルモードで実行される.通常のサブルーチンコー 
ルでは現在の実行レベルを保持するので，ユーザープロ 
グラムからコールしたサブルーチンでは特権命令を実行 
できない.ソフトウェア割り込みによって，実行レベル 
を特権レベルに上げることができる. 

二つ目はコールするアドレスの問題である . Windows 
や Linux 上のユーザープログラムは，基本的にすべて仮 
想アドレス上で動作する.一方， OS のサービスルーチ 
ンの先頭アドレスは一意に決まっている.その先頭アド 
レスを明示的にユーザープログラムで指定するには，仮 
想アドレスがどの物理アドレスに変換されるのかを知る 


手段がない以上，一般には不可能である.割り込みべク 
タテーブルは，通常，システムに一つだけ存在するので， 
0 S のサービスを割り込みハンドラで指定するようにす 
れば，すべてのタスクから同じ 0 S のサービスルーチン 
を実行できてむだがない. 

歴史的にながめれば，保護やアドレス変換がない昔の 
MPU では，システムコールがサブルーチンコールによ 
って行われていた.これは仕方のないことである（とい 
うか，それ以外の方法はなかった）.しかし，比較的新 
しいところでは， OS /2 でもシステムコールをサブルー 
チンコールで実現していた.その当時，すでに MS-DOS 
ではシステムコールに INT 命令を使用していたので， 
OS /2 は先祖返りといえなくもない.なぜ，そのような 
しくみを採用したのか， IBM の見解を聞いてみたいも 
のである. OS /2 を動作させる MPU が，アドレス変換 
がまだ洗練されてなかった80286だったことが一因かも 
しれない. 

おもしろいところでは ， Windows CE や一部の Linux 
のシステムでは，システム コールに アドレス エラーを 利 
用している. MPU にはトラップ命令やシステム コール 
命令が用意されているのに，なぜこうなっているのかは 
謎である. 
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図 5 割り込み/例外処理の動作の概要 



外が発生すると値が上書きされてしまう.多重に割り 
込みが発生する可能性がある場合は，スタックなりメ 
モリなりに内容を退避する必要がある ( RISC にもスタ 
ックという概念はある）. 

割り込み発生前と割り込みハンドラからの復帰後 
で，プログラムが使用しているレジスタの値は保存さ 
れなければならない.このレジスタの退避/回復処理 
は大量のメモリアクセスを伴うので，性能低下につな 
がる.それを避けるため，アーキテクチャによっては 
割り込みハンドラのみがアクセスできる，通常のレジ 
スタとは独立したレジスタを提供していることもあ 
る.このような構造をレジスタバンクと呼ぶ . ARM 
などのアーキテクチャは，例外の種類ごとに数種類の 
レジスタバンクを備える. 

また，割り込みからの復帰命令は MPU によって異 
なるが，だいたい次のような名称で呼ばれる. 

RETI (RETurn from Interrupt ) 

RETE (RETurn form Exception ) 

IRET (Interrupt RETurn ) 

ERET (Exception RETurn ) 

この名称によって，その MPU のアーキテクチャが 
割り込み/例外のことを，割り込み ( Interrupt ) と呼ん 
でいるか，例外 ( Exception ) と呼んでいるかを知るこ 
とができる. 

• 割り込み発生と割り込みマスク 

一般的な MPU では，一度に一つの割り込み要求し 
か受け付けないようにするため，割り込み発生時には 
新たな割り込みの受け付けができなくなる.ソフトゥ 
エアによる割り込みや例外処理中に発生する割り込み 
は，割り込み処理が終了するまで待たされる.具体的 
には，復帰命令を実行して割り込みが許可されるまで， 
新たな割り込みは受け付けない. 


一方，ソフトゥヱアによる割り込みや例外処理中に 
発生する例外に関しては，禁止(マスク）する手段がな 
い.多くの場合はその例外処理に移行するが，発生す 
る例外の種類によっては2重例外による致命的例外と 
なり， MPU の実行が停止する場合もある. 

一般に，例外処理中には割り込みの受け付けが禁止 
されるが，意図的に SR を書き換えれば割り込みの受 
け付けを可能にすることもできる（多重割り込みにつ 
いては後述）. 

•割り込み許可とマスク 

通常，割り込みには許可ビットとマスクビットが用 
意されている.許可ビットとは，割り込みの受け付け 
を許可するか否かを指定するビットである.割り込み 
発生時に新たな割り込みを受け付けないようにする機 
構は，この許可ビットを_動的に受け付け禁止に設定 
することで実現されていることが多い. 

一方，マスクビットとは，割り込みをマスク（覆い 
隠す=禁止する）ためのビットである. MPU が割り込 
み端子を1本しかサポートしていない場合は，マスク 
ビットの意味はない.許可ビットとまったく同じ意味 
となるからである. 

後述するように，複数の割り込み入力がある場合， 
それぞれの割り込み要求に対して1対1にマスクビッ 
卜が存在し，割り込み要因ごとに独立して割り込みを 
禁止する場合にマスクビットを使う.そして ， MPU 
として全割り込みの受け付けを許可するか否かを許可 
ビットで指定する.いずれにせよ，許可ビットとマス 
クビットの両方で割り込みが許可されていないと，割 
り込み要求は受け付けられない（図 6). 

籲複数割り込みと優先順位 

割り込み要求はたいていの場合， MPU の外部端子 
によって通知される.バスサイクルで与えられる 
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図6許可ビットとマスクビット 


マスク 

ビット 

〇 


マスク 

ビット 


許可 

ビット 



割り込み認識 


MPU もあるが，ごく稀なケースなのでここでは割愛 
する. 

MPU によっては，外部割り込み入力が1本という 
場合もあるが，実際にシステムを構築する場合には， 
割り込み要因が10を越えることは珍しくなく，複数 
の外部割り込みを扱う要求が出てくる.割り込みが複 
数ある場合は，割り込みの優先順位をどうするかも問 
題である. 

MPU によっては，外部割り込みを優先順位付きの 
レベルで 識別できる.この場合，割り込み端子は複数 
本からなり，その端子状態が割り込み要求の レベルを 
表す.たとえば，割り込み端子の本数が3本なら，0 
〜7の8種類の レベルを 要求できる. このレベルは そ 
のまま割り込みの優先順位となり， MPU 内に記憶さ 
れている基準 レベルと 比較され，それより優先順位が 
高い場合は割り込みを受け付ける. 

図 7 は，要求レべルの値が大きいほど優先順位が高 
いものと仮定し，0の場合が割り込みなしの状態とな 
っているときの割り込みを認識するしくみである.こ 
の基準 レベルは ソフトウェアで任意に変更できる •つ 
まり，ある優先順位の割り込みを処理している場合は， 
それより優先順位の低い割り込み要求を受け付けない 
ようにもできる.この場合，基準 レベルが 割り込みの 


マスクとして機能している.逆に，現在より優先順位 
の高い割り込み要求が発生すると受け付けてしまう. 
それを防ぐためには，ソフトウエアで現在処理中の優 
先順位を最高位に上げておかなければならない. 

• 割り込みコント□ーラ 

図7 のような MPU では，割り込み要因に対応した 
値レベル)を割り込み入力端子に入力する必要がある. 
しかし，外部割り込みを発生させる一般的な外部デバ 
イスは，割り込み要求時に割り込み出力端子をアサー 
卜する機能しかもたず，それ自身ではレベルを生成す 
ることができないものが多い. 

そのような場合は，プライオリテイエンコーダ（優 
先順位の符号化器）を使用し，割り込み要因に対応し 
たレベルを MPU に入力できるようにする.また，複 
数の割り込みが同時に発生した場合は，もっとも優先 
順位の高い割り込み要因のレベルを MPU に入力する 
(図 8). このように，複数の割り込み要因を優先順位 
を考慮して MPU に伝達するデバイスを，割り込みコ 
ントローラと呼ぶ. 

MPU に割り込み端子が複数あっても，レベル入力方 
式でない場合もある.その場合は，各割り込み端子自 
体が優先順位をもっている.たとえば， INTO , INTI , 
INT 2 という割り込み端子があれば ， INTOC INT 1 く 


図7レベル方式による優先順位付き 
複数割り込み入力 


比較器 



割り込み 

認識 
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割り込み要因〇一 
割り込み要因1_ 

割り込み要因2_ 

割り込み要因3— 

割り込み要因4一 
割り込み要因5— 

割り込み要因6— 

割り込み要因7— 

割り込み要因8— 

割り込み要因9一 
割り込み要因10 

図8レベル方式による割り込み 

入力本数の拡張 割り込みアクノリツジで得るベクタ 



割り込み 
要求 


割り込み 

ベクタ 


INT 2 の順に優先順位が高く，複数の割り込み端子が 
同時に アサート される場合は，より高い優先順位の割 
り込みが受け付けられる. MPU に用意されている割 
り込み入力本数では足りない場合は，外部に割り込み 
コントロー ラを カスケ ー ド接続するなどして割り込み 
入力を拡張する必要がある（図 9). 

また， MPU によっては，複数の割り込み端子を有 
していても，それらにハードウェア的な優先順位がな 
いこともある.その場合，マスカブル割り込みの割り 
込みべクタは1種類で，あとはソフトウェアで「よき 
に計らえ」ということになる. 

具体的には，すべての割り込み端子の状態がソフト 
ウェアから見えるようになっていて，それを見ながら 
ソフトウエアで適当に優先順位をつけて処理すること 


割り込み要因0—- 
割り込み要因1―- 
割り込み要因2—- 
割り込み要因3—- 
割り込み要因4—- 
割り込み要因5—- 
割り込み要因6—- 
割り込み要因7―- 
割り込み要因8—一- 
割り込み要因9—- 
割り込み要因 10 — 

図9割り込み入力端子に優先順位がある場合の割り込み 
入力の拡張 


になる.この場合，割り込みを認識するソフトウェア 
のステップ数が増加するので割り込みハンドラの処理 
が重くなる.しかし，ハードウェア構成が単純なので， 
RISC 系の MPU ではこの構成がしばしば採用される. 

•多重割り込み 

複数の割り込み要因が優先順位付きで MPU に入力 
される場合，優先順位の低い割り込み処理中に，より 
優先順位の高い割り込みが発生する可能性がある. 

通常，割り込み処理中（割り込みハンドラの実行中） 
は新たな割り込みの受け付けはマスクされる.しかし， 
割り込みハンドラ内でも，割り込み許可ビットをセッ 
卜して，より優先度の高い割り込み要求の受け付けを 
許すようにもできる.これにより，より優先度が高い 
割り込みが発生した場合，そちらの割り込み処理を開 
始することができる.これを多重割り込みと呼ぶ. 

多重割り込みは， CISC 系 MPU などの PC や SR が 
スタックに保存される MPU などでは，とくに考慮が 
必要となるような問題はない.しかし， RISC 系 MPU 
など， PC と SR が'専用レジスタに退避されるだけの方 
式では，多重割り込みを許可する前に，その専用レジ 
スタの内容が書き潰されないように，元の値をスタッ 
クなどの領域に退避しておく必要がある. 

• 割り込みを受け付けるタイミング 

割り込み要求が発生したとき， MPU がその要求を 
受け付けるタイミングはいつだろうか.それは ， MPU 
が割り込み処理を行うのに都合のよいタイミングで 
ある. 

いくらなんでも，命令を実行している途中（具体的 




^割り込み要因13 
割り込み要因12 
割り込み要因11 
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第 6 章割り込みと例外の概念とその違い 


図10割り込み機能の実現 


ク□ック 


叩 T 3 丨 

IF RF 

EX 

DC 

WB 

命令 2 の実行前に割り込み 
をサンプリングする場合 

叩 T ) ど 

IF 

RF 

EX 

DC WB 



DPT 3 ° 岐命令に ! 
命令4 ■き“, 


IF I RF I EX I DC I WB I 


割り込み(ジャンプ)に 
> よって無効化される 


例外べクタ（ジャンプ先)の命令 

C | ii り込み禁止などの例外処理を実行 i 

割り込みサンプリング 


には結果をデステイネーシヨンレジスタにライトバッ 
クする前に）で割り込みを受け付けたりしたら，一時 
的に保持している値が壊れてしまうので，正しい結果 
をライトバックできない.この意味からも，割り込み 
は命令の実行終了後，次の命令の実行前のタイミング 
で受け付けられるのが普通である. 

RISC では，1命令の実行時間は基本的に1クロック 
なので，たいていの場合は，割り込みを要求してから 
1クロック後には割り込みが受け付けられる.ただし， 
FPU の除算命令などは実行に50クロック以上もかか 
ることもあり，その場合には割り込みを受け付けるま 
でに最悪50クロック程度かかることになる. 

CISC の場合，1命令で行う処理の複雑さゆえ，命 
令の実行時間は通常1クロック以上である.たとえば， 
文字列転送命令や，倍精度の浮動小数点命令の実行に 
は200クロック以上かかることも珍しくない. 

これでは割り込み応答性のよいリアルタイム OS を 
作ることはさすがに難しい.そこで， CISC の MPU 
では，実行時間の長い命令に関しては，例外的に命令 
実行の途中で割り込みを受け付けるようになっている. 

割り込み発生時にスタックに積まれる PC の値は， 
一般には，次の命令の PC(Next PC ) であるが，命令 
実行中に割り込みを受け付ける場合は，実行を中断し 
た命令(実行中の命令）の PC (Current PC ) である.こ 
のため，割り込みハンドラで RETI などの復帰命令を 
実行すると，中断した命令から実行が再開される. 
MPU 内部では，命令の再開処理がうまくいくような 
しくみが用意されているのである. 

• 割り込み機能の実装 

実際に， MPU で割り込み機能を実装するためには 
どうするのだろうか.簡単に説明すると，命令がパイ 
プラインを流れる間に割り込みを受け付けると，その 


命令を割り込みベクタへ分岐するジャンプ命令に置き 
換える. 

割り込みと例外はほとんど同じ処理になるので，割 
り込みがあるかないかを調べるタイミング（サンプリ 
ングという）は，例外検出を行うタイミングと同じ場 
合が多い.つまり，例外発生時も，その命令を例外べ 
クタへのジャンプ命令に置き換えることで実現できる. 

たとえば， IF (命令フェッチ）， RF (デコード）， EX 
(実行）， DC (データアクセス）， WB (ライトバック） 
からなる5段パイプラインの MPU を考える.例外と 
して考えられるのは， RF ステージでの未定義命令例 
外（ブレークポイントやシステムコールを含む）と DC 
ステージでのアドレス エラー （データの TLB ミスを含 
む）や EX ステージの結果に依存するトラップやオー 
バフ ローな どである. 

このような場合， RF ステージか DC ステージで割 
り込みをサンプリングするのが普通である.割り込み 
応答を良くしたい場合は， RF ステージと DC ステー 
ジの両方で割り込みのサンプリングを行う. 

ただし ， DC ステージで 割り込みをサンプリングす 
る場合は，命令のデコードはすでに終了しているので， 
単純に例外べクダへのジャンプ命令に置き換えること 
はできない.この場合は，その命令をジャンプ命令に 
置き換えるというよりは，次にフェッチする命令を ジ 
ャンプ命令に置き換えると考える.処理的には， RF 
ステージで サンプリングするよりも複雑である（それ 
ならば，すべて DC ステージで サンプリングすればよ 
いという考えも当然ある）. 

図 10 に， RF ステージで 割り込みをサンプリングす 
る場合の割り込み処理の概略を示す.パイプラインの 
制御はジャンプ命令と同じでよいので，割り込みを受 
け付けた後続命令を無効化する処理もジャンプ命令と 
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同様の制御で実現できる. 

割り込みだけでなぐ例外処理も同じ実装でよいが， 
命令フェッチ時のアドレスエラーや TLB ミスの場合 
は，例外べクタへのジャンプ命令をフェッチしてくる 
と思えばよい. 

とくに例外は，実行 (EX ステージ）が終わらないと 
発生の有無がわからない場合もあるので， DC ステー 
ジでのサンプリングは必須である. DC ステージは， 
演算結果を書き戻す ( WB ステージ)直前であり，無効 
な結果を書き戻さないようにするための最後のチャン 
スである（割り込みなら1命令後で発生してもかまわ 
ない）. DC ステージで例外を検出した場合は， WB ス 
テージでの書き込みを禁止して，次にフェッチする命 
令をジャンプ命令に置き換える. 

3 割り込みと例外処理の実際 

それでは，実際の MPU における割り込みと例外処 
理について，いくつかのアーキテクチャの MPU を取 
り上げて説明する. 

• X86 の場合 

x86 での割り込みはハードウェア割り込みのことを 
指し，周辺デバイスからの割り込み要求によって発生 
する.例外は，トラップ，フォールト，アボートに区 

IRQO- 
IRQ1 - 


別される.トラップとは INT x といったソフトウェ 
ア割り込み，フォールトは主として MMU 関連の例外， 
アボートは処理が続けられないようなエラー発生時の 
例外である. 

► ハードウェア構成 

x86 アーキテクチャの MPU では，割り込みコント 
ローラとして Intel の 8259A という LSI を想定してい 
る（最近では， APIC = Advanced Programmable 
Interrupt Controller がその役割を果たす）. MPU と 
割り込みコントロー ラは，図11 ( a ) のように接続され 
る. 8259 A は 1 個で八つまでの割り込み要因しか処理 
できない.それ以上の割り込み要因が必要な場合は， 
図11 ( b ) のように割り込みコントローラをカスケード 
接続して対応する. 

割り込み発生時の割り込みコントローラの動作を図 
12に示す.これを割り込みアクノリッジサイクルと呼 
ぶ. 8259A は，割り込みを出力するデバイスからの割 
り込み要求を察知すると， MPU の外部端子である割 
り込み要求端子 (INTR) をアサートし，外部割り込み 
要求の存在を知らせる. 

MPU は外部割り込みの存在を感知すると，割り込 
みアクノリッジを示す信号 (S2 〜 SO 端子）を出力する. 
そこで，割り込みコントローラはデータバスに割り込 
み番号（ベクタ）を与えて割り込みの種類を示す•割 
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ポーリング 


DMA の設定 適当な別の処理 DMA の後処理 

図 A DMA 転送終了割り込みによる処理の待ち合わせ 


I / O デバイス 


古い状態 


丨新しい状態 

▲ ♦ 


DMA DMA 転送 

コント □— ラ * 


EOT 割り込み 



古い状態に応じた処理 


図 B ボーリングによる処理の待ち合わせ 


新しい状態に 
応じた処理 


割り込みの利点の一つとして，ある処理の終了を 
割り込みで通知するようにしておけばその間に別の 
処理を並行して実行できることが挙げられる. 

たとえば， DMA の待ち合わせに割り込みが多用 
される. DMA コントローラの多くは，転送終了時 
に EOT (End Of Transfer ) または TC (Terminal 
Count ) といった割り込みを発生する. DMA 転送を 
割り込みで待ち合わせる処理のイメージを図 A に 
示す. 

このように，動作の終了で割り込みを出力する機 
能をもたないデバイスによる処理の待ち合わせに 
は，そのデバイス内の ステータスを 定期的にチ ェツ 
クして，処理が終了したかどうかを判定しなければ 
ならない（図 B ). このように定期的に ステータスの 

態をチェツクすることをポーリングという. 

ポーリングは，ソフトウェアによる単純なループ 
であることも少なくない.ポーリングによる処理の 
待ち合わせは，状態の変化を知るまでに遅れが生じ 
るので，割り込みと比べると効率が悪い.また，そ 
の間に別の処理を行えないという点でもポーリング 
の効率は惡い. 


第6章割り込みと例外の概念とその蓮ぽ 
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図 12 X86 の割り込みアクノリッジ _ 
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り込みアクノリッジ.サイクルが2回発生するのは 
8259 A のつごうである. 

1回目で割り込みが発生したことを認識し，2回目 
で割り込みベクタを返す.なお，ここでいうべクタと 
は，割り込みハンドラの先頭アドレスではない点に注 
意してほしい. 

割り込みアクノリッジサイクル自体は，「要求され 
た割り込みを受け付けた」という意味ももっている. 
割り込みアクノリッジが発生しないということは，要 
求された割り込みが無視されたということである.こ 
れは，割り込みがマスク（禁止）されている場合に起こ 


りえる. 

その場合，割り込みコントローラは割り込み要求端 
子をアサートし続け，割り込みアクノリッジが発生す 
るのを待つのが普通である.通常，割り込み要求端子 
は，割り込みアクノリッジが発生するまでアサートし 
続ける. 

►割り込み番号とその要因 

x 86 がサボートする割り込み番号とその要因を表1 
に示す.ソフトゥヱア割り込みを発生する INT 命令 
は，パラメータとして〇〜255の割り込み番号を指定 
することができる.このため， INT 命令によってす 
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表 1 x 86 の割り込み番号とその要因 


割り込み 
番号 

種類 

要因 

0x00 

フォールト 

除算 ェラー 

0x01 

フオールト 

デバッガ割り込み 
(トレース） 

0x02 

アボート 

NMI 

0x03 

トラップ 

IN 丁 3 

(ブレークポイント） 

0x04 

トラップ 

INTO 

0x05 

フオールト 

配列境界違反 

0x06 

フオールト 

無効命令 

0x07 

フォールト 

コプロセッサ無効 

0x08 

アボート 

ダブルフォールト 

0x09 

アボート 

コプロセッサセグメ 
ントオーバラン 

OxOA 

フォールト 

無効 TSS 

OxOB 

フォールト 

セグメント不在 

OxOC 

フオールト 

スタック例外 

OxOD 

フォールト 

一般保護 例外 

OxOE 

フオールト 

ページフォールト 

0x10 

フォールト 

コプロセッサエラー 

Oxll 

フォールト 

アラインメントチェック 

0x12 

アボート 

マシンチェック 

0x13 

フオールト 

ストリーミング 

SIMD 拡張 

0x12 〜 OxlF 


予約済み（使用不可） 

0x20 〜 OxFF 


ユーザー 用（外部割り 
込み / INT 命令） 


ベての割り込み/例外を発生させることが(理論上）可 
能である.外部割り込みの割り込み番号は，先ほど説 
明した割り込みコントローラから与えられる. 

► リアルモードでの動作 

割り込み/例外処理の挙動は，リアルモードとプロ 
テクトモードで異なる. 

リアルモードでは， 0 x 00000 番地から始まる256エ 
ントリの割り込みベクタテーブルで，割り込み/例外 
の割り込み番号とその処理ハンドラのアドレスが対応 
付けられる.割り込みベクタテーブルの各エントリは， 
2バイトのオフセットアドレスと2バイトのセグメン 
トアドレスから構成される. 

割り込み/例外が発生すると， MPU はフラグレジス 
夕， CS レジスタ， IP レジスタをスタックにプッシュ 
して例外スタックフレームを作り，発生した割り込み 
/例外の割り込み番号に対応する割り込みべクタテー 
ブルのエントリからオフセットアドレスとセグメント 
アドレスを読み出す.そして，それぞれの値を IP レ 
ジスタ， CS レジスタに設定することにより，処理ハ 
ンドラに分岐する. 


►プロ テクトモードでの動作 

プロテクトモードの場合は，割り込みベクタテープ 
ルではなく，割り込みディスクリプタテーブル ( IDT ) 
が使用される.割り込みディスクリプタテーブルの先 
頭アドレスは， 0 x 00000 番地に固定ではなく ， IDTR 
レジスタによって設定される. 

割り込みディスクリプタテーブルは，割り込み番号 
とその処理ハンドラのアドレスを決定するゲートディ 
スクリプタとを対応付ける256エントリのテーブルで 
ある.ゲートディスクリプタは2バイトのセレクタ値， 
4バイトのオフセットアドレス，1バイトのスタック 
コピーカウント，1バイトのゲートの種類から構成さ 
れる8バイトの データで ある. 

大雑把にいえば，リアルモードでの割り込みベクタ 
テーブルの エントリに対して，オフセットアドレスが 
2バイトから4バイトに拡張されたと思えばよい•そ 
して，セレクタ値が間接的にセグメントの先頭アドレ 
スを指し示す. 

プロテクトモードにおいて割り込み/例外が発生す 
ると，スタックポインタが特権レベル0のスタックポ 
インタに切り替わる.そして，その新しいスタックに 
古いスタックポインタ （ SS : ESP ) をプッシュし，そ 
の後， EFLAGS レジスタと CS レジスタと EIP レジス 
夕の値をプッシュして，ゲートディスクリプタで指定 
された処理ハンドラに分岐する（図 13). 割り込み/例 
外処理を行った後， IRET 命令を実行すると，特権レ 
ベル0スタックから SS : ESP , EFLAGS , CS : EIP 
を回復する. 

x 86 における割り込みと例外の差異は，処理ハンド 
ラに分岐した時点で，新しい FLAGS レジスタまたは 
EFLAGS レジスタの割り込み許可ビットが禁止(割り 
込み発生時）になっているか，前の値を引き継いでい 
る（例外時）かだけである. 

• MC 680 X 0 の場合 

► ハー ドウエァ構成 

68000系では，割り込みコントローラを含む周辺デ 
バイスとして， MC 68901という MFP ( Multi-Function 
Peripheral ) が存在する.とくに，組み込み制御用途 
の MPU では専用の周辺デバイスが用意され，割り込 
みコントローラもそれに含まれていることが多い.割 
り込みコントローラは，各社独自の ASIC として供給 
されることもある. 

図 14 に， 680 x 0 での割り込みアクノリッジサイク 
ルを示す. 680 x 0 での割り込みのベクタ番号は一定し 
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割り込み八ンドラ 


INT 0x21 の割り込み八ンドラ 
のセグメント 


グローパルディスクリプタ 
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図14 680 x 0 の割り込みアクノリッジサイクル 


保持する.例外べクタは，リセットベクタを除いた例 
外処理ルーチンの先頭アドレスである. 

表2に，例外べクタテーブルの内容を示す.このう 
ち，リセットベクタは ISP (割り込みスタックポイン 
夕）の初期値と PC の初期値（実行開始アドレス）から 
なる.例外べクタの格納されているアドレスは，例外 
の種類に応じて MPU が自動的に割り当てる8ビット 
のべクタ番号から決定される.また，いくつかの例外 
については，外部デバイスが例外べクタを供給する. 
例外べクタアドレスは，例外べクタを4倍し ， VBR 
の値に加算して決定される. 

割り込み処理はスーパバイザスタックに例外から復 


セレクタ値 0x00 の 
セグメントディスクリプタ 


セレクタ値 0x08 の 
セグメントディスクリプタ 


セレクタ値 0x10 の 
セグメントディスクリプタ 


セレクタ値 Ox 18 の 
セグメントディスクリプタ 


セレクタ値/?の 
セグメントディスクリプタ 



図13害 ij り込みハンドラの選択（プロテクトモード) 


ておらず， MPU 外部の割り込みコントローラによつ 
て与えられる.割り込みを受け付けると， MPU は割 
り込みアクノリッジバスサイクルを発行して，割り込 
みコントローラにベクタ番号を問い合わせる.割り込 
みコントローラは，発生している割り込みの種類に応 
じてベクタ番号 (64 〜 255) を返すか，オートべクタを 
使用する （ AVEC 端子をアサートする）かを決定する. 

オートべクタというのは，割り込みの優先レベル （1 
〜 7) に固定のベクタ番号である.具体的には，優先 
レベルに24を加えた25〜31がべクタ番号となる.才 
ートベクタは，システムと密接した割り込み処理に利 
用されることが多いようである. 

もし，割り込みアクノリッジバスサイクルに対して 
何も応答が返らない場合はスプリアス割り込みとな 
る.これは割り込みの要因が不明な割り込みで， 
MPU としては処理する方法がわからない.通常のシ 
ステムでは，ノイズによる誤動作などとして，スプリ 
アス割り込みは無視される（割り込みハンドラは RTE 
のみ）. 

►割り込み/例外の動作 

MC 680 x 0 の割り込み/例外処理は，例外べクタテー 
ブルと例外スタックフレームを使用する.ベクタべ 一 
スレジスタ （ VBR ) は，256個の例外べクタからなる 
1024バイトの例外べクタテーブルの先頭アドレスを 
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オフセツト 
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表 2 680x0 の例外べクタテーブル 


ベクタ 

番号 

オフセット 

割り当て 

0 

0 x 000 

リセット時割り込みスタックポインタ 

1 

0 x 004 

リセット時プログラムカウンタ 

2 

0 x 008 

アクセスフォールト 

3 

OxOOC 

アドレスエラー 

4 

0 x 010 

不正命令 

5 

0 x 014 

整数ゼロ除算 

6 

0 x 018 

CHK ， CHK 2 命令 

7 

OxOlC 

FTRAPcc , TRAPcc , TRAPV 命令 

8 

0 x 020 

特権違反 

9 

0 x 024 

トレース 

10 

0 x 028 

ライン1010エミュレータ 

(未実装 A ライン命令コード） 

11 

0 x 02 C 

ライン1111エミュレータ 
(未実装 F ライン命令コード） 

12 

0 x 030 

(予約) 

13 

0 x 034 

コプロセッサプロトコル違反 

14 

0 x 038 

フォ ー マツ トエラー 

15 

0 x 03 C 

未初期化割り込み 

16〜23 

0 x 040 〜 
0 x 05 C 

(予約) 

24 

0 x 060 

スプリァス割り込み 

25 

0 x 064 

レベル1割り込みオートベクタ 

26 

0 x 068 

レベル2割り込みオートベクタ 

27 

0 x 06 C 

レベル3割り込みオートベクタ 


ベクタ 

番号 

オフセット 

割り当て 

28 

0 x 070 

レベル 4 割り込みオートベクタ 

29 

0 x 074 

レベル5割り込みオートベクタ 

30 

0 x 078 

レベル 6 割り込みオートベクタ 

31 

0 x 07 C 

レベル7割り込みオートベクタ 

32〜47 

0 x 080 〜 
OxOBC 

TRAP #0〜#15命令 

48 

OxOCO 

FP アンオーダ状態での分岐または 
セット 

49 

0 x 0 C 4 

FP 精度落ち 

50 

0 x 0 C 8 

FP ゼロ除算 

51 

OxOCC 

FP アンダフロー 

52 

OxODO 

FP オペランドエラー 

53 

0 x 0 D 4 

FP オーバフロー 

54 

0 x 0 D 8 

FP シグ ナ リング Not a Number 

55 

OxODC 

FP 未実装データ形式 

56 

OxOEO 

MMU 構成エラー 

57 

0 x 0 E 4 

MC 68851 で使用 

58 

0 x 0 E 8 

MC 68851 で使用 

59〜63 

OxOEC 〜 
OxOFC 

(予約) 

64〜255 

0 x 100 〜 
0 x 3 FC 

ユーザー定義べクタ 


帰するための情報を積む.これらは，例外の種類によ 
つて異なる，例外スタックフレームと呼ばれる構造を 
採る.例外スタックフレームは， SR (ステータスレジ 
スタ）， PC (プログラムカウンタ），ベクタのオフセツ 
卜，スタックフレームの形式を示す領域と，追加情報 
からなる. 

例外/割り込み処理の後， RTE 命令を実行すると例 


外スタックフレームから MPU の再実行に必要な情報 
が読み込まれて，実行を再開する. 

MC 680 x 0 で定義されている例外スタックフレーム 
(フォーマット 0) を図15に示す.例外スタックフレー 
ムの種類は， MC 68000, MC 68010,……， MC 68060 
と世代が進むごとに（対処的に ？） 拡張され，最終的に 
は10種類を超えた.付け焼き刃のようで，アーキテ 


SSP 

_ SSP +2 

( フオーマツ ト备号 

SSP +6 

(例外発生前の SSP 卜 SSP +8 


151211 0 


15 SR (ステータスレジスタ）〇 


31 16 

—— PC (プログラムカウンタ）一 
15 0 


0000 ベクタオフセット 


例外発生前の SSP の先頭のデータ 


図15 

680x0 の例外スタックフレームの構造 

(フォーマット 0) 


例外の種類 

PC が指す位置 

割り込み 

次の命令 

フォーマツ ト エラー 

RTE 命令または FRESTORE 命令 

TRAP #N 

次の命令 

不当命令 

不当命令 

A ライン命令 

A ライン命令 

F ライン命令 

F ライン命令 

特権違反 

特権違反を発生させた命令の最初のワード 

浮動小数点命令実行前 

浮動小数点命令 

未実装整数 

未実装整数命令 

未実装実効アドレス 

未実装実効アドレスを使用した命令 
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図16 ARM のレジスタ構成 


モード 

ユーザー 



特権モード 



モード 


例外モード 

ューザー 

システム 

スーパバイザ 

アポート 

未定義 

IRQ 

FIQ 


♦汎用レジスタ 


R0 

rT 

R2 

R3 

R4 

R5~ 

~R6 


R7 


R8 

R8 

R9 

R9 

RIO 

mo 

mi 

R11 

R12 

R12 

R13(SP) 

R13 

R13 

R13 

R13 

R13 

R14(LR) 

R14 

R14 

R14 

R14 

R14 

R15(PC) 

♦ ステータスレジスタ 

CPSR 

一 ^ — ^ 

SPSR 

SPSR 

SPSR 

SPSR 

SPSR 


クチャとしてはあまり美しくない. 

• ARM の場合 
► レジスタ構成 

ARM のアーキテクチャでは，割り込み/例外発生 
時に，ユーザーレジスタの退避の必要性をなくすため， 
レジスタバンクが用意されている.このレジスタバン 
クは，割り込み/例外の種類（モード）に応じて5バン 
クが独立して存在する.このレジスタバンクのレジス 
夕の一部はユーザーモードのレジスタと共通になって 
いて，モード間で共通にアクセスできる（図 16). 

多くのモードでは R 13 と R 14 を固有にもっている. 
R 13 には，そのモードでのスタックボインタの値が格 
納され， R 14 には割り込み/例外からの復帰アドレス 
が自動的にセットされる. R 14 には，割り込み/例外を 
発生した次の命令のアドレスが格納されるので，ユー 
ザーモードへの復帰時には，処理モードに応じて適当 
な値を R 14 から減算して PC に格納する. 

高速割り込みモード ( FIQ ) では，コンテキストスイ 
ッチの オーバヘッドを 軽減す るた め， R 8 〜 R 14 が 
モード固有のレジスタとして用意されている.例外ス 
タックフレームは 存在しない.その代わり，ステ ータ 
スレジスタは，新しいレジスタバンクに存在する 


SPSR に退避される. PC は，新しいレジスタバンク 
の R 14 に退避される. 

►割り込み/例外の動作 

割り込み/例外発生時の MPU の動作は，次のとお 
りである.なお ARM では，ベクタアドレスは 一つに 
ついて 4バイトの領域しかないので，通常は処理ルー 
チンへの分岐命令が格納されている. （6) と⑺がソフ 
トウェアによる処理である. 

⑴例外に対応する処理モードに移行 
(2) 戻りアドレスを新しい処理モードのレジスタ バン 
クの R 14 に退避 

⑶ CPSR の値を新しい処理モードのレジスタバンク 
の SPSR に退避 

⑷ CPSR の所定ビットをセットして外部割り込み不 
可にする 

⑸処理モードに応じた例外べクタアドレス（表 3) へ 
分岐する 

⑹例外処理を実行 

(7) ソフトウェア割り込み，未定義命令トラップから 
の復帰時 

■►movs PC, R14 ( R 14 を PC に格納） 

IRQ , FIQ , プリフェッチアボートからの復帰時 
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表 3 ARM の例外べクタアドレス 


割り込み/例外の種類 

モ ー ド 

ベクタ 
アドレス 

リセット 

SVC (スーパバイザ） 

0 x 00000000 

未定義命令 

UND (未定義） 

0 x 00000004 

ソフトウエア割り込み 

SVC (スーパバイザ） 

0 x 00000008 

命令フエッチメモリフォールト 

Abort (アボート） 

0 x 00000000 

データアクセスメモリフォールト 

Abort (アボート） 

0 x 00000010 

アドレス例夕 H 26 ビットアドレス） 

Abort (アボート） 

0 x 00000014 

IRQ (通常の割り込み） 

IRQ 

0 x 00000018 

FIQ (高速割り込み） 

FIQ 

OxOOOOOOlC 


岭 SUBUS PC ， R 14, #4(R14 から4を減算して 
PC に格納） 

データ ア ボー トからの復帰 
岭 SUBUS PC , R 14，#8(R14 から8を減算して 
PC に格納） 

(命令の最後の S は同時に SPSR を CPSR に回復す 
ることを意味する） 

なお，多重割り込みを行っている場合は， R 14( 戻 
りアドレスの基準）がスタックにある.この場合は多 
重レジスタ転送命令の 

LDMIA R13 ! , {R0-R3, PC } 八 

によって，例外からの復帰ができる（同時に CPSR を 
回復する）. R13 はスタックポインタであり，作業用 
レジスタとして使われる R 0 〜 R 3 がスタックに退避さ 
れている場合を示している.レジスタリストの終わり 
の"が， CPSR を同時に回復することを指定する. 

► 最新アーキテクチャでは割り込み機構を高速化 

ARM は v 6 アーキテクチャで，例外/割り込み処理 
の高速化を目指している.具体的には， 

•新しい割り込みスタック機構 (SRS，RFE 命令） 
■命令に よるモード 変更 (CPSIE，CPSID 命令） 

•発生順序を規定しないアボートをサポート 
•低レイテンシモードの採用（実装依存） 

•ベクタ割り込みモードをサポート 
である. 

• MIPS の場合 
► ハードウ I ア構成 

MIPS 系の MPU は，通常5本の（マスカブル）割り込 
み端子をもっているが，それらの間に優先順位はない. 
すべて ソフトウェアでの 処理に任されている.また， 
割り込みを受け付けても割り込みアクノリッジサイク 
ルは発行しない.さらに，割り込みは端子の状態が原 
因 レジスタの特定の フイー ルドにそのまま見えている 
だけな ので， 割り込みを確実に認識するためには，割 
り込み処理が終了するまで割り込み端子の状態を保持 


する必要がある. 

通常の MPU では，割り込みアクノリッジサイクル 
が発行されると割り込み要求を取り下げてよい（その 
割り込みは受け付けられたことが保証される）. 
MIPS では，特定の I / O ポートにアクセスしたら割り 
込み要求を取り下げるというしくみを，外部回路で実 
現しなければならない. 

►割り込み/例外の動作 

MIPS の割り込み例外処理は単純である.ほとんど 
すべての 例外は， 共通のベクタアドレスへ 分岐する. 
例外 スタックフレームは 存在せず， ステータスレジス 
夕は例外ビット （ EXL または ERL ) がセットされるこ 
とで特権 レベルに 移行したことを示す. 

一方， PC は特定の特権レジスタ （ EPC または Error 
EPC ) に退避される.割り込み/例外の要因は，ほとん 
どの場合同じアドレス（共通例外べクタという）に分岐 
するので，原因レジスタに格納される例外コードを読 
み出して区別する.表 4 に，原因レジスタに格納され 
る例夕！*コードを示す. 

割り込み/例外発生時の MPU の動作は，次のとお 
りである. （1) 〜 （3) は，外部割り込みの場合である. 
例外発生時は，直接 (4) に移行する. （7) 〜 (9) がソフ 
トウエアによる処理である. 

⑴割り込み要求が発生 ( INTO 〜 INT 4) 

(2) INTO 〜 INT 4 端子の状態と SR のマスクビット 
( IM 0 〜 IM 4) の論理積 ( AND ) が 原因レジスタの 
割り込み保留領域 ( IP 0 〜 IP 4) に反映される 
⑶ IP 0 〜 IP 4 のどれ か一つが 1であり， かつ SR の割 
り込み許可ビット （ IE ) が1なら割り込みが発生す 
る 

(4) カーネルモード（相当）に移行する （ EXL または 
ERL が 1). 同時に割り込み不可になる （ EXL や 
ERL が1のときは割り込み不可） 

(5) 戻りアドレスを特定の特権レジスタ （ EPC または 
ErrorEPC ) に退避 


180 













第 6 章割り込みと例外の概念とその違い 


表4 MIPS 系の原因レジスタの例外コード 


例外 

コード 

略号 

説明 

0 

Int 

割り込み 

1 

Mod 

TLB 変更例外 

2 

TLBL 

TLB 不一致例外 

(ロード，命令フヱッチ） 

3 

TLBS 

TLB 不一致例外（ストァ） 

4 

AdEL 

アドレスエラー 
(ロード，命令フェッチ） 

5 

AdES 

アドレスエラー（ストア） 

6 

IBE 

バスエラー（命令フェッチ） 

7 

DBE 

バス エラー（ロード，ストア） 

8 

Sys 

システムコール 

9 

Bp 

ブレークポイント 

10 

RI 

予約済み命令例外 

11 

CpU 

コブロセッサ使用不可例外 

12 

Ov 

演算オーバフロー例外 

13 

Tr 

トラップ 

14 

VCEI 

命令仮想コヒーレンシ例外 

15 

FPE 

浮動小数点演算例外 

16〜22 

未使用 


23 

WATCH 

ウォッチ例外 

24〜30 

未使用 


31 

VCED 

データ仮想コヒーレンシ例夕 


⑹発生要因に応じた例外べクタアドレス（表 5) へ分 
岐する 

⑺外部割り込みの場合は，割り込みの要因を取り下 
げる 

(8) 割り込み処理を行う 
⑼ ERET 命令を実行する 

(10) EXL = 1 の場合は， EPC のアドレスに分岐し 
EXL を0にする . ERL =1の場合は ErrorEPC 
のアドレスに分岐し ERL を0にする 
例外べクタアドレスは，リセット直後のステータス 
レジスタの BEV ビットをクリアするまでと， BEV ビ 
ットをクリアした後で異なる. BEV とは Bootstrap 
Exception Vector の略で，まだ，キヤッシユや TLB 
を初期化する前の状態を表す.ソフトウェアではそれ 
らの初期化後に BEV ビットを〇にクリアすることが 
要請されている.このため， BEV が1の間は非キャ 
ッシユで非マップ（アドレス変換されない）領域が例外 
べク タになっている. 

►最新アーキテクチャでは割り込み機構を高速化 

MIPS の割り込み方式は単純でわかりやすいが，そ 
の反面，高速な処理には適さない.そこで MIPS 社は， 
2001年10月に発表した拡張機能で，割り込み処理を 
高速化する機構を強化した.詳細は不明だが ， ARM 


表5 MIPS 系の例外べクタアドレス 


例外•割り込み 
の種類 

アドレス 

リセット， NMI 

0xFFFFFFFFBFC00000 

キャッシュエラー 

OxFFFFFFFFAOOOOlOO (BEV=0) 
OxFFFFFFFFBFC 00300 (BEV=1) 

TLB 不一致（ミス） 
(EXL=0) 

OxFFFFFFFF 80000000 (BEV=0) 
OxFFFFFFFFBFC 00200 (BEV=1) 

XTLB 不一致（ミス） 
(EXL=0) 

OxFFFFFFFF 80000080 (BEV=0) 
OxFFFFFFFFBFC 00280 (BEV=1) 

その他 

OxFFFFFFFF 80000180 (BEV=0) 
OxFFFFFFFFBFC 00380 (BEV=1) 


と同様なレジスタバンクを16組もち，割り込みの種 
類に応じて16種の割り込みベクタを生成するアーキ 
テクチヤになるという. 

• SH ( SuperH ) の場合 

► ハードウエア構成 

SH の割り込みは，4ビツトの優先順位（レベル）方 
式を採用している. 

SH -1/ SH -2 では，8本の外部割り込み端子 ( IRQ 0 〜 
IRQ 7) と内蔵する周辺ユニツトからの割り込みが 
MPU への割り込み要因となる.これらの割り込み要 
因は，5本の割り込み優先順位レジスタ ( IPR ) で独立 
して優先順位を指定することができる.いずれかの割 
り込みが要求されると，それに対応した優先順位が 
MPU に入力される. 

一方， SH -3 では，6本の外部割り込み端子 ( IRQ 0 〜 
IRQ 5), 16本のポート割り込み （ PINTO 〜 PINT 15), 
内蔵周辺ユニツトからの割り込みに優先順位を与える 
方式のほか，4ビツトの優先順位 ( IRL 0 〜 IRL 3) を直 
接外部から入力することもできる. SH -4 では，4ビツ 
卜の優先順位入力 （ IRL 0 〜 IRL 3) がユーザーに直接見 
えるようになっている. 

いずれにしろ，割り込み要求(優先順位入力）が，ス 
テータスレジスタ （ SR ) 内の 割り込み マスク 領域 
( IMASK ) の値よりも優先度が高いときに割り込みを 
受け付ける.割り込み マスク 領域の初期値は最高の優 
先順位になっているので， MPU の初期化段階で適当 
な値を IMASK に設定する必要がある. 

►例外べクタの構成 

SH の例外べクタの構成は， SH -2 までと SH -3 以降 
ではまったく異なっている. SH -1/ SH -2 は例外要因そ 
れぞれに対して， 0 x 00000000 番地から始まる例外べ 
クタ テーブルの オフ セツ トが規定され ている （表 6) • 
この方式は， MC 680 x 0 の方式に酷似して いる. 
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〔表6〕 SH -1/ SH -2 の例外べクタ 


例外要因 

ベクタ 

番号 

ベクタ 

テーブル 

パワーオンリセット 

PC 

0 

0x00000000 


SP 

1 

0x00000004 

マニュアル リセット 

PC 

2 

0x00000008 


SP 

3 

0x0000000C 

一般不当命令 

4 

0x00000010 

(システム予約） 

5 

0x00000014 

スロット不当命令 

6 

0x00000018 

(システム予約） 

7 

8 

0x0000001C 

0x00000020 

CPU アドレスエラー 

9 

0x00000024 

DMA アドレスエラ- 


10 

0x00000028 

割り込み 

NMI 

11 

0x0000002C 

USER BREAK 

12 

0x00000030 



13 

0x00000034 

(システム予約） 


31 

0x0000007C 

トラップ命令 


32 

0x00000080 

(ユーザーベクタ） 


63 

OxOOOOOOFC 

割り込み 

IRQO 

64 

0x00000100 


IRQ1 

65 

0x00000104 


IRQ2 

66 

0x00000108 


IRQ3 

67 

OxOOOOOlOC 


IRQ4 

68 

0x00000110 


IRQ5 

69 

0x00000114 


IRQ6 

70 

0x00000118 


IRQ? 

71 

0x0000011C 

内蔵周辺 

72 

0x00000120 

内蔵周辺 

255 

0x000003FC 


一方， SH -3 以降では例外べ ク タ テーブルを 参照せ 
ず，直接共通の例外べ クタ （リセット用と他に3種類） 
にジャンプする方式に変更された（表 7). 実際に，ど 
の種類の例外が発生したかは EXPEV 丁（一般例外 
用， TLB ミスかも ？）， INTEVT (割り込み用 ）， TRA 
( TRAPA のパラメータの4倍）レジスタに格納されて 
いる例外要因の値で区別する.この方式は， MIPS の 
方式に近い.具体的には，リセットが P 2( 非キャッシ 
ユ，非 TLB マップ)領域の OxAOOOOOOO に固定されて 
いる.割り込みと一般割り込み例外は， ベクタベース 
レジスタ （ VBR ) が示すアドレスからのオフセットと 
なっている.割り込みは VBR + 0 x 600， TLB ミスが 
VBR + 0 x 400, 一般例外が VBR + 0 x 100 である. 

SH における割り込みのアーキテクチャは， SH -1 か 
ら SH -4 へと MPU が進化するにつれて簡略化される方 
向にあるようだ. 

►割り込み/例外の動作 

実際の割り込み処理の流れを示す. （1) と （2) は外部 
割り込みの場合で，例外の場合は直接⑶に移行する. 


表7 SH -3/ SH -4 の例外べクタ （抜粋) 


例外要因 

べクタアドレス 

例外要因 

パワーオンリセット 

OxAOOOOOOO 

0x000 

マニュアル リセット 

OxAOOOOOOO 

0x020 

TLB 多重ヒット 

OxAOOOOOOO 

0x140 

リードアドレスエラー 

VBR + 0x100 

OxOEO 

リード TLB ミス 

VBR + 0x400 

0x040 

リード TLB 保護違反 

VBR + 0x100 

OxOAO 

ライトアドレスエラー 

VBR + 0x100 

0x100 

ライト TLB ミス 

VBR + 0x400 

0x060 

ライト TLB 保護違反 

VBR + 0x100 

OxOCO 

一般不当命令例外 

VBR + 0x100 

0x180 

スロット不当命令例外 

VBR + 0x100 

OxlAO 

初期ページ書き込み 

VBR + 0x100 

0x080 

TRAPA 命令 

VBR + 0x100 

0x160 

USER BREAK TRAP 

VBR + 0x100 

OxlEO 

NMI 

VBR + 0x600 

OxlCO 

外部割り込み IRL = 0000 


0x200 

IRL = 0001 


0x220 

IRL = 0002 

VBR + 0x600 

0x240 

IRL = 1110 


0x3C0 



0x400 

内藏周辺からの割り込み 

VBR + 0x600 

0x760 


⑺〜 （10) がソフトウェアでの処理である. 

⑴割り込み要求が発生 ( IRL 0 〜 IRL 3) 

⑵ SR の割り込みマスク （10 〜13 = IMASK ) と比較し 
て優先度が高ければ割り込みが発生する 
⑶例外要因レジスタ （ INTEVT など）に割り込み要 
因コードがセットされる 
⑷ SR と PC が SSR と SPC に退避される 

(5) SR のブロックビット ( BL ), モードビット （ MD ), 
レジスタバンクビット （ RB ) が1にセットされる 

(6) 割り込みハンドラへジャンプする 

(7) 多重割り込みを許可する場合は， 

• SSR , SPC の値をスタックに退避する 

• IMASK を許可する優先順位に設定する 

• BL ビットを0にする（割り込み許可） 

(8) 割り込み処理を行う （BL = 0 の場合は，より優先 
度の高い割り込みを受け付け可能） 

(9) 多重割り込みを許可する場合は， 

• BL ビットを1にする（割り込み禁止） 
•スタックから SSR , SPC を回復する 

(10) RTE 命令を実行する 

(11) SSR , SPC が’ SR , PC にセットされる（割り込ま 
れた元にジャンプする） 

なお， SH -4 では，割り込みコントローラの設定 


182 







































割り込みと例外の概念とその違し、 


表8 PAL コード例外ェントリ ( Alpha 21214) 


エントリ名 

タイプ 

オフセット 

説 明 

DTBM DOUBLE 一 3 

フオールト 

0 x 100 

仮想ページテーブル参照時データ TB ミス.レベル 3 フロー使用 

DTBM 一 DOUBLE 4 

フオ^ー ルト 

0 x 180 

仮想ページテーブル参照時データ TB ミス.レベル 4 フロー 使用 

FEN 

フオールト 

0 x 200 

浮動小数点不許可 

UNALIGN 

フオールト 

0 x 280 

非整列データ参照 

DTBM 一 SINGLE 

フオールト 

0 x 300 

データ TB ミス 

DFAULT 

フオールト 

0 x 380 

データフォールト，仮想アドレス符号チェックエラー 

OPCDEC 

フオールト 

0 x 400 

不正命令コード，機能フイールド 

IACV 

フオールト 

0 x 480 

命令アクセス違反，仮想アドレス符号チェックェラー 

MCHK 

割り込み 

0 x 500 

マシンチェック 

ITB 一 MISS 

フオールト 

0 x 580 

命令 TB ミス 

ARITH 

同期トラップ 

0 x 600 

算術例外， FPCR 更新 

INTERRUPT 

割り込み 

0 x 680 

割り込み （ハードウェア，ソフトウェア， AST ) 

MT FPCR 

同期トラップ 

0 x 700 

MT FPCR 命令の発行 

RESET/WAICEUP 

割り込み 

0 x 780 

リセット，スリープモードから起床 


( ICR レジスタの IRLM ビット）で，4ビットの優先順 
位入力を独立した4本の割り込み要求として利用する 
こともできる.この場合， IRLO ， IRL 1, IRL 2, IRL 3 
の優先順位は，それぞれレベル13，10，7，4として 
扱われる. 

• Alpha (21264) の場合 

► ハードウェア構成 

Alpha アーキテクチャの例外処理は，他の MPU と 
毛色が違っている. Alpha では，アプリケーションプ 
ログラムが実行する命令コードの他に，例外などの特 
権操作を記述するための PAL (Privileged Architec 
ture Library ) コード専用命令を定義している. 

PAL コード専用命令は MPU ごとに固有の命令セッ 
卜で，同じ Alpha プロセッサでも互換性があるとは限 
らない.これにより，システムの〇 S やハードウェア構 
成の違いに応じて PAL コードを用意することで，複 
数のシステムに Alpha アーキテクチャを搭載できる. 

しかし，これは製造元の DEC (その後 Compaq に買 
収され消滅)の方便のようにも思える. OS の構造を変 
更した程度で固有のシステムを構成できるほど単純な 
ものではあるまい（ハードウェア構成にも依存する）. 

個人的には， PAL コードというのは最小限の特権 
機能を提供する命令を供給することで， OS の設計と 
並行してチップの設計を早期に行うためのものだと考 
える.換言すれば， PAL コードとは OS 記述用のマイ 
クロコードの ようなものであるといえる . PAL コー 
ドによれば，どんな OS でも記述できる（と思われる）. 
►例外べクタの構成 

割り込み/例外処理も PAL コード専用命令と通常命 


令の組み合わせで記述される.この総称を PAL コード 
と呼ぶ.逆に言えば， PAL コードの存在こそが Alpha 
アーキテクチャの最大の特徴である. PAL コードが 
呼び出される要因には，次の5種類がある. 

•リセット 

•ハードウェア例外 ( MCHK ， ARITH ) 

• メモリ管理例外 
•割り込み 

• CALL.PAL^ 

つまり，割り込み/例外事象と，それとは独立して 
直接 PAL コードを呼び出す CALL _ PAL 命令である. 
PAL コードのエントリは， PAL _ BASE レジスタから 
のオフセットで定義される. PAL _ BASE の値はリセ 
ット後に0となるが，ソフトウェアで変更可能である. 

割り込み/例外が発生すると，命令の制御は例外の 
タイプに応じて定義されている PAL コードのエント 
リに移行する.例外処理からの戻り PC は EXC_ADDR 
レジスタとリターン予測スタックに格納される. 

表8は， Alpha 21264の PAL コード例外エントリと 
PAL _ BASE レジスタからのオフセットを示す. 

PAL コードで記述された処理の終わりに HW_RET 
命令 ( PAL 専用命令）を実行すると，リターン予測ス 
タックから PC を読み出して割り込み/例外から復帰 
する. 

►割り込み/例外の動作 

Alpha では6本のハードウェア割り込みと15本のソ 
フトウェア割り込みが提供されている.ハードウェア 
割り込みは， IRQ _ H [5 : 0] 端子により独立した6種類 
の要求ができる.これらの要求は， CM _ IER レジスタ 
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の EIE フイールドで独立してマスクが可能である. 

6本の割り込みの間に優先順位はなく，ソフトウェ 
アで優先順位づけして処理する必要がある.ソフトウ 
ェア割り込みは SIRR レジスタの SIR [15:1] の各ビッ 
卜に1を書き込むことで要求する.そして，要求され 
ているハードウェア/ソフトウェア割り込みは，それ 
ぞれ ISUM レジスタの EI [5 : 0] フイールド， SI [15 : 1] フ 
イールドに反映されている. 

割り込み/例外に関連するレジスタとして，もう一 
つ EXC . SUM レジスタがある•これは例外 （ トラップ） 
の契機になった命令の種類を格納するレジスタで，卜 
ラップ要因や PAL コードが行うべき指示などが含ま 
れている. 

EXC _ SUM レジスタはトラップ発生時に更新され， 
例外ハンドラの最初にフェッチされるブロック内で 
リードする場合のみ有効である.つまり，例外ハンド 
ラの最初のキヤッシユブロック内に HW _ MFPR 命令 
(内部レジスタをリードする PAL 専用命令）を置かなけ 
ればならない. 


• SPARC (Version 8) の場合 
► ハードウエア構成とレジスタウインドウ 

SPARC のアーキテクチャは， ARM と同じくバー 
クレー大学の RISC 研究の成果に基づいている.その 
アーキテクチャでもっとも特徴的なのは，レジスタウ 
インドウという構成である. 

整数ユニット （ IU ) は32ビットの汎用レジスタを 
136個もっている.このうち8個はグローバルに参照 
できるが，残りは手続きごとに割り当てられ，引き数 
の授受を高速に行う.これがレジスタウインドウで， 
一つのウインドウは24個のレジスタからなる. 

内訳は， R 24 〜 R 31 が手続きの呼び出し元とオーバ 
ラップする（引き数用）. R 16 〜 R 23 は，手続き内で 
ローカルに使用できる. R 8 〜 R 15 は，手続きが呼び 
出す手続きとオーバラップする.手続きの最初にレジ 
スタウインドウを切り替えることで，レジスタの値を 
退避させることなく，レジスタを自由に使用できる 
(図 17). 

SPARC では割り込み/例外をトラップと呼び，トラ 


割り込みとタスク切り替え 


マルチタスクの実現方法として，プリエンプティブ方 
式というものがある.これはタイマ割り込み（一定間隔 
で発生する割り込み要求）を契機としてタスクを切り替 
える方式である. 

実行中のタスクは時間が来る（タイマ割り込みが発生 
する）と割り込みを受け付けて，その実行を強制的に中 
断し，制御を 0 S のタスク制御プログラムに移す. 0 S 
は中断したタスクのコンテキスト（実行を再現するため 
の PC やレジスタなどの値）を退避し，次に優先順位の 
高いタスクのコンテキストを回復して，そのタスクに実 
行の制御を移す. 

このようにして，一つしかない MPU が，複数のプロ 


グラム（タスク）を短い時間に少しずつ実行していくこと 
でそれらが同時に動作しているように見せる.これがマ 
ルチタスクによる並行処理の正体である.そして，マル 
チタスク動作を行うためのキーポイントとなるのがタイ 
マ割り込みという割り込みの一種なのである. 

三つのタスク（タスク A ， タスク B ， タスク C ) が存在 
する場合にタスク切り替えが行われるしくみのイメージ 
を図 C に示す.タイマ割り込み自体は， MPU 内部の夕 
イマカウンタに 0 S が値を設定し，そのカウンタの値が 
一定値に達すると割り込み要求が発生するというもの 
だ.また，タイマ割り込みが発生するごとに 0 S 内で夕 
イマカウンタは設定し直される. 


図 C プリエンプティブなタスク 
切り替えのイメージ 


時間 


OS 

，割り込み、 
、ハンドラノ 


タスク A « 
タスク巳_ 
タスク C - 


割り込み八ンドラでは.次に優先度の高いタスクに制御を移す 


タイマ割り込み 
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第 6 章割り込みと例外の概念とその違い 


レジスタの実体（リング状） 












global 

R 7〜 R 0 


カレントウィンドウポインタ 
CWP -1 ― ► 


in 

local 

out 

R 31 〜 R 24 

R 23 〜 R 16 

R 15〜 R 8 


トラップ発生 
SAVE 命令 


CWP 


CWP +1- 


in 

local 

out 

R 31 〜 R 24 

R 23 〜 R 16 

R 15〜 R 8 


カレント（現在の）ウィンドウ 


in 

local 

out 

R 31 〜 R 24 

R 23 〜 R 16 

R 15〜 R 8 


RETT 命令 
RESTORE 命令 


-初期状態では global と local が一致 
- R 0 の値は常に0 


図17 SPARC のウインドウレジスタの構成 


global 

R フ〜 R0 


global 

R 7- R 0 


global 

R 7 〜RQ 


ップも手続き呼び出しと同様の挙動をする.つまり， 
通常の手続き呼び出しと同様に，トラップが発生する 
とカレントウインドウポインタを減少させ，次のレジ 
スタウインドウを指し示す.そして，トラップを起こ 
した命令の PC とその次の命令の PC を新しいウインド 
ウの 二つの 口一カルレジスタ （ R17 と R18) に格納する. 

一般的に，トラップハンドラは PSR (Program 
Status Register ) の値を他の ローカル レジスタに退避 
させる.このため，新しいウインドウのほかの五つの 
ローカル レジスタが使用可能である.トラッブは命令 
によって起因する例外，または特定の例外とは無関係 
な外部割り込みによって引き起こされる.命令が実行 
される前，例外や割り込み要求のうちのどれかが発生 
していると， IU は最高の優先順位をもっものを選択 
してトラップを発生させる. 

► 例外べクタの構成 

トラップが発生すると，各トラップハンドラの最初 
の4命令が格納された特殊なトラップテーブルをべク 
夕参照してスーパバイザへ制御を移行する.このテー 
ブルの ベース アドレスは， IU のトラップ ベース レジ 
スタ （ TBR ) で規定される. 

また，トラップテーブル内のオフセットはトラップ 
タイプ （ tt ) によって決定される. tt は TBR のビット 
11〜4に格納されるので，トラップ発生時の TBR の 
値がそのままベクタの値となる. TBR のビット3〜〇 
は0固定なので，トラップテーブルの各エントリでは 
対応するトラップハンドラに対して16バイトの領域 
(4 命令)が確保されていることになる. 

なお，トラップテーブルの半分はハードウエアトラ 


ップ用である.残りの半分はソフトウェアトラップ命 
令 ( Ticc ) によって発生するソフトウェアトラップ用で 
ある.ただし，リセットのみは〇番地に分岐する. 

IU は外部割り込み要求に対しては，割り込み要求 
レベル ( bp _ IRL ) を PSR のプロセッサ割り込みレベル 
( PIL ) と比較し， bp _ IRL のほうが PIL より大きいか， 
bp _ IRL =15( NMI ) の場合は，プロセッサが割り込み 
要求をトラップとして受け付ける. 

なお，トラップが発生するためには， PSR の割り込 
み許可 （ ET ) ビットが1であることが必要である . ET 
ビットが〇なら， bp_IRL = 15であっても割り込みは 
発生しない. 

►割り込み/例外の動作 

表9に ， SPARC (Version 8) のトラップの優先順位 
とトラップタイプを示す. SPARC では，トラップが 
発生すると次のような動作を行う. 

1) トラップを不許可 (ET —0) 

2) 現在のユーザー/スーパーバイザモードが保存され 
る （PS — S ) 

3) ユーザー/スーパーバイザモードがスーパーバイザ 
に (S —1) 

4) レジスタウィンドウが切り替わる 
(CWP — CWP -1) 

5) トラップを発生した PC を新しいウィンドウのロー 
カルレジスタ1，2に格納する 

( R 17 —PC ; R 18 — nPC ) 

6) 例外や割り込み要求を特定する tt 値が書き込ま 
れる 

7) リセットなら制御はアドレス0に移行し （PC — 0, 
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表 9 SPARC の例外/割り込み要求の優先順位とトラップタイプ 


例外割り込み要求 

優先順位 

tt(Trap Type ) 


例外割り込み要求 

優先順位 

tt(Trap Type ) 

リセット 

1 

不定 


タグオーバフロー 

14 

OxOA 

データストアエラー 

2 

0 x 2 B 


ゼロ除算 

15 

0 x 2 A 

命令参照 MMU ミス 

2 

0 x 3 C 


トラッブ命令 

16 

0 x 80 〜 OxFF 

命令参照エラー 

3 

0 x 21 


割り込みレベル 15 

17 

OxlF 

R レジスタ参照エラー 

4 

0 x 20 


割り込みレベル 14 

18 

OxlE 

命令参照例外 

5 

0 x 01 


割り込みレベル 13 

19 

OxlD 

特権命令 

6 

0 x 03 


割り込みレベル 12 

20 

OxlC 

不正命令 

7 

0 x 02 


割り込みレベル 11 

21 

OxlB 

FP 不許可 

8 

0 x 04 


割り込みレベル 10 

22 

OxlA 

CP 不許可 

8 

0 x 24 


割り込みレベル 9 

23 

0 x 19 

未実装 FLUSH 

8 

0 x 25 


割り込みレベル 8 

24 

0 x 18 

ウォッチポイント検出 

8 

OxOB 


割り込みレベル 7 

25 

0 x 17 

ウインドウオーバフロー 

9 

0 x 05 


割り込みレベル 6 

26 

0 x 16 

ウインドウアンダフロー 

9 

0 x 06 


割り込みレベル 5 

27 

0 x 15 

メモリアドレス不整列 

10 

0 x 07 


割り込みレベル 4 

28 

0 x 14 

FP 例外 

11 

0 x 08 


割り込みレベル 3 

29 

0 x 13 

CP 例外 

11 

0 x 28 


割り込みレベル 2 

30 

0 x 12 

データ参照エラー 

12 

0 x 29 


割り込みレベル 1 

31 

Oxll 

データ参照 MMU ミス 

12 

0 x 2 C 


実装依存例外 

実装依存 

0 x 60 〜 0 x 7 F 

データ参照例外 

13 

0 x 09 



nPC —4) ，リセットでないなら制御はトラップ 
テーブルの中に移行する （PC —TBR ; nPC — 
TBR +4) 

8) ソフトウェアでトラップ処理を行う 

9) RETT (Return from Trap ) 命令を実行する （CWP 
一 CWP +1 ; S —PS ; ET —1) 

10) JMPL 命令を実行(実際には JMPL の遅延スロット 
に RETT を置く）してハンドラから復帰する. 
RETT だけでは後続の数命令を実行してしまう 
ため 

例 1) トラップした命令に復帰 
JMPL %R17,%R0 
RETT %R18 

例 2) トラップした次の命令に復帰 
JMPL %R18,%R0 
RETT %Rl8+4 
• 各 MPU の特徴のまとめ 

こうして，各アーキテクチャの割り込み/例外処理 
の実装を見ると，次のようなことがわかる. CISC (と 
いうか古い MPU ) では，ハンドラのアドレスが格納さ 
れたテーブルを參照して分岐先を決定するのに対し， 


RISC では割り込み/例外の種類に応じた特定のアドレ 
スに直接分岐するのである ( SH -1/ SH -2 を除く）.これ 
は，少しでもメモリ参照回数を低減して性能向上を 
図るという， RISC の設計方針が表れたものかもしれ 
ない. 

まとめ 

割り込みや例外というものは， MPU の動き自体は 
単純なものである.なぜ，そのような機構が提供され 
ているのか，その思想的背景を理解することのほうが 
難しい.今回の説明で少しはわかっていただけたであ 
ろうか（じつは少し不安). 

割り込みといえば，何かの仕事を中断して別の仕事 
をするというイメージである.この場合，後で中断し 
た処理を再開するために，スタックに戻りアドレスな 
どの復帰情報を退避させることが前提である.このた 
め，現実の生活では，割り込み仕事が連続して頻発す 
ると，「スタックがオーバフローして，さっきまで何 
をやっていたかわからな いよ」 と悲鳴を上げることが 
しばしばである.これも職業病だろうか. 
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クロック周波数の上限は何で決まるのか 

高通化技術の基礎 


•高速化とはどういうことか？ 

「 MPU が高速」という場合は，一般には処理性能 
が高いことを示す. MPU の処理時間は，次の式で表 
される. 


処理時間= 


処理に要する総クロック数 

クロック周波数 


処理に要する命令数 x CPI 

クロック周波数 

処理性能が高いということは，この処理時間が短い 
ということである.処理に要する命令数を減らすこと 
で，処理時間を短くするのが CISC のアプローチであ 
った.反面， CRT (Clocks per Instruction ) を減らすこ 
ととクロック周波数を高くすることが RISC のアブ 
ローチであった • 最近の MPU は RISC 化されている 
ので， RISC のアプローチをメインに考える. 

CH を減らすこと，つまり ， IPC (Instructions per 
Clock ) を増やす工夫は，第2章や第3章で説明したパ 
イプライン，スーパースカラなどで行われている•ク 
ロック周波数を上げる工夫は，一部はスーパーパイプ 
ラインで行われている.しかし，これらマイクロアー 
キテクチャ的なアプローチはすでに出尽くした感があ 
る.そこでここでは，クロック周波数を上げるという 
観点で考えてみたい.以下，「高速」という言葉はク 
ロック周波数が高いという意味で使用する. 


• クロック周波数を規定する要因 

クロック周波数とは，クロックが単位時間に変化す 
る回数を示す. MPU はクロックに同期して動作して 
いるため，クロック周波数が処理速度を規定する.つ 
まり，クロック周波数を高くすればするほど ， MPU 
は高性能になる.しかし，クロック周波数は無条件に 
高くはできない.それは， MPU の内部回路を電気信 
号が伝わる時間（電流の速度）に依存するからである. 

つまり，クロックが1回変化する時間（これが1周 
期=周波数の逆数）に電気信号が移動できる距離が， 
クロック周波数の物理的な限界である.しかも内部回 
路には，次のように電気信号の流れを妨げるいろいろ 
な要因が存在する. 

► クリティカルパス 

クリティカルパス （critical path ) とは，二つのフリ 
ップフロップ（クロックが供給されるラッチ）間の配線 
で生じる最大遅延時間のことである. MPU の内部回 
路はクロックに同期して動くため，クロックの1周期 
の間にあるフリップフロップから別のフリップフロッ 
プに電気信号が伝わらないと誤動作する. 

現実には，フリップフロップ間には何段階にもわた 
って AND / OR / XOR / NOT といった論理ゲートが存 
在する（図 A ). 電気信号はこれらの論理ゲートを通過 
するたびに少しずつ遅延(ゲート遅延)が生じる.また， 


クロック線 



図 A フリップフロップと論理ゲート F/F :フリツフフ□ツフ ( SR ) 
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図 B クロックスキュー 
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配線自身の抵抗によっても遅延（配線遅延）が生じる. 
これらを合計した遅延時間がクロックの1周期の時間 
より小さくないと誤動作する. 

高速化を実現するための基本は，ゲート遅延を低減 
するためにフリップフロップ間の論理ゲートの段数を 
減らすことである.これは論理設計の役割である•あ 
るいは，配線遅延を低減するために配線を想くするこ 
とである.これは回路設計の役割である.とはいえ， 
一つの配線が多くの論理ゲートを通過していると論理 
ゲート用にある程度の距離が必要なので，配線を短く 
するためには論理ゲートの段数を減らすことも必要で 
ある. 

► クロックスキュー 

クリティカルパスはフリップフロップ間の電気信号 
の遅延によって規定されるが，これは，すべてのフリ 
ップ フロ ップに対して，クロックが同じタイミングで 
変化することを前提としている.しかし，クロックも 
配線によって伝達されるので，配線の形状や長さによ 

令 


図 C 

H - Tree 型のクロック配線 


ってバラツキを生じる.このクロックのバラツキをな 
くすために，クロックの配線にバッファを入れたり遅 
延素子を入れたりして遅延をそろえることが行われる 

(図 B ). 

しかし，クロックのバラツキを完全に一致させるこ 
とは不可能なので，一致させられなかった分がクロッ 
クスキューとなる.クロックスキューは，フリップフ 
ロップを伝わる電気信号から見ると遅延とみなされる 
ので，クロック周波数低下の要因となる. 

クロックスキューを揃えるために一般的に使用され 
るのは， 「 H - Tree 」 と呼ばれる手法である.これはク 
ロックラインをアルファべットの H 形状に配線する 
ことで，クロックドライバからクロックの供給先まで 
の距離をそろえる（図 C )• Intel の Prescott は H-Tree 
構造を改良し， Northwood では 22 ps であったクロッ 
クスキューを Prescott では 7 ps に低減している. 

ARM 10 の製造で 1.2 GHz を達成した Sumsung 社は， 
H - Tree 構造ではなく「メッシュ」構造を採用してい 
る.これはクロックをメッシュ状に配線し，その各辺 
から同時にクロックを供給する手法である（図 D ). H - 
Tree に比べるとクロックスキューは小さくなるが， 
同時に駆動するラインが多いため，消費電力が大きく 
なる. 

►ゲート遅延 

ゲート遅延はトランジスタ遅延ともいわれる.つま 
り，トランジスタの ソースから ドレインに電気信号 
( NMOS トランジスタの場合は電子， PMOS トランジ 
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スタの場合は正孔）が流れる場合の遅延時間のことで 
ある.これはゲートの下に形成されるチャネル長に比 
例して大きくなる.したがって，ゲート長（やチャネ 
ル長）を短くできる微細プロセスを使用すれば，ゲー 
卜遅延を低減できる. 

ゲート遅延はトランジスタの製造条件，すなわち， 
V ", (Threshold Voltage , とも呼ぶ），な , (high drain 
current ) ，んガ (low off state leakage ) などにも依存す 
る. V ,/,とは，ソースからドレインに電流が流れ始め 
る電圧のことで，この電圧が低いほどトランジスタは 
高速に〇 N / OFF 動作する. 4,,とは，トランジスタが 
〇 N 時の単位長当たりの電流値（通常， " A /" m とい 
う単位で示される）のことで，この値が大きいほど遅 
延が少なくなる. 

なを大きく製造するということは，トランジスタの 
電流駆動能力を大きく製造することである. とは， 
トランジスタが OFF 時の ソースから ドレインに流れ 
るリ ーク 電流のことで，消費電力を下げるためには 
/</の低減が必須である（/, # の単位は，通常 nA /“ m な 
ので，ん„に比べると非常に小さいのだが). 

リーク電流はトランジスタの ON 電圧を邪魔するの 
で，/说の低減はルの低下を可能にする.リーク電流 
を抑えるために SOI (Silicon On Insulator ) という技術 
などが提案されている. 

以上のことから，微細プロセスでゲート長を® くし， 
V "，が低く，な,が大きいトランジスタを製造すれば， 
高速な ON / OFF 動作が可能になる.近年， THz トラ 
ンジスタ (TeraHertz Transistor ) ，すなわち ITHz 以 
上のクロック周波数で動作するトランジスタの発表が 
花盛りであるが，これはゲート遅延が lps 以下である 
ことを示しているにすぎない.つまり，ゲート遅延の 
逆数をクロック周波数とみなしているのである.本来 
のクロック周波数は回路の配線遅延などにも依存す 
るので，それがそのまま MPU の動作周波数にはなら 
ない. 

ところで，温度が上昇するとチャネルの熱抵抗が増 
加するのでゲート遅延が増加する.そこで，トランジ 
スタを冷却することで クロック 周波数を高めることも 
考えられる.半導体の製造メーカーは，ある決められ 
た温度範囲内で動作 クロック 周波数を保証しようとす 
るため，無理やり冷却することで クロック 周波数を向 
上させることは想定していない.しかし， PC の自作 
などの クロックアップ では， メーカーの 保証外ではあ 
るが，とにかく冷やすというのが常套手段である. 


図 D 

メッシュ型の 
クロック配線 





► 歪みシリコン (Strained Silicon ) 

MOS トランジスタの微細化にともない，ゲート酸 
化膜が薄くなるとリーク電流が増加するため，それを 
抑えるための high-k (誘電率の高い）絶縁膜の研究がさ 
かんである.しかし， high - k 絶縁膜では， Si 0 2 に比 
ベ，電気信号(電子や正孔)の移動速度が低下してしま 
う.そこで，電気信号の移動度を高める手段として歪 
みシリコンが注目されている. 

シリコン単体より格子定数の大きい SiGe 結晶の上 
に薄い Si 膜を作ると格子が引き延ばされて歪むのだ 
が，この状態では通常のシリコンに比べて電子，正孔 
の移動度が向上することが知られている.しかし，無 
理な力を加えて製造するので格子欠陥ができやすいと 
いう問題がある. 

また，歪みシリコンによるキャリア移動度の向上度 
合いが電子と正孔で差があることや， NMOS トラン 
ジスタではしきい値が低下するため，回路設計が難し 
いという問題もある.そのためか，歪みシリコンを利 
用した MOS デバイスが発表されたのは2001年と意外 
に新しい.本格的な実用化はまだ先の話である. 

……と思っていたところ， Intel はゲート長 50 nm 
(ゲート酸化膜厚 1.2 nm ， 設計ルールは 90 nm ) の 
CMOS プロセス 「 P 1262」 で歪みシリコンを採用する 
ことを明らかにした （2002 年8月13日）. Intel の試算 
ではトランジスタの電流速度が10〜20%向上する. 
この P 1262 は， Pentium 4 系の Prescott などに適用さ 
れている. 

歪みシリコンといえば， IBM がいちばん先行して 
いると考えられている.その IBM ですら 65 nm 世代か 
ら適用と表明していたが，後発の Intel が，1世代早い 
90 nm から適用すると発表して注目を集めている.な 
お， IBM によると歪みシリコンを用いた場合の動作 
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図 F ゲート遅延と配線遅延 


/9 C 遅延発生 

> 



速度は，最大35%向上するという. 

► 配線遅延 

遅延は トランジスタ だけでなく，配線自身によって 
も発生する.配線を伝わる電気信号の遅延は，配線抵 
杭/?と配線容量 C の積で決定される （/? C 遅延）.電気 
信号はデバイス中を伝達する際に，配線にぶら下がっ 
ている容量 （キャパシタンス=コンデンサ）を充 放電さ 
せながら伝搬される（図 E ). 

配線抵抗を下げるためには配線幅を広くし，配線の 
厚さを厚くしなければならない.しかし，それでは微 
細化に反する.通常の MPU ではアルミニウムで配線 
を行うが，最近は，より電気抵抗の小さい銅を用いて 
配線するのが流行である.銅を使用すれば，細い配線 
にしても電気信号が スムーズに 流れる.しかし，銅配 
線を使用するためにはダマシン ( damascene ) プロセス 
という新しい配線形成方式が必要になるので製造の手 
間がかかる.このため，現在では真に高速を要する場 
面でしか使用されない. 

また，製造プロセスの微細化により，配線の寄生容 
量が増加する傾向にある. 


ためには，配線間隔を広くする必要がある.これらは 
プロセスの微細化とは逆行する.その解決策が多層配 
線である.これは，高集積化された配線層を，層間膜 
を挾んで何層にも積み重ねて配線系を実現するもので 
ある. 

現在，層間膜としては二酸化シリコン ( Si 0 2 ) が主流 
である.しかし，寄生容量を低減するために，さらに 
誘電率の低い （ low - k ) 材質である HSQ 膜，アモルファ 
スカー ボン膜などが注目されている. Si 0 2 の誘電率 
は 4.1 であり，一般に low - k 材質といえば誘電率が 3.0 
以下の材質を意味する. 

配線材料の低抵抗化は，銅配線の採用でほぼ物理的 
限界に来ている.このため，層間絶縁膜材料の低誘電 
率化は，高速配線実現の要としてますます重要になっ 
ている. 

従来，回路の遅延はゲート遅延が大勢を占めていた 
が，製造プロセスが微細化するのにともない，配線遅 
延を無視できなくなってきた（図 F ). 製造プロセスの 
微細化は，ゲート遅延を低下させるが，反対に配線遅 
延を増加させる.その境目は，ゲート長が0.18 " m 辺 
りにあるといわれている. 

► 動作電圧 

最近，製造プロセスの微細化にともない，動作電圧 
も低下する傾向にある.基本的に， CMOS 回路は面 
積が小さいほど低い電力で動作できる.また ， CMOS 
回路は電圧が高いほどスイッチング速度が速い.ある 
いは， CMOS 回路の動作速度は， NMOS , PMOS 卜 
ランジスタの電流駆動能力に依存する. 

電流駆動能力は，大雑把にいうと，ゲートにかかる 
電圧とり,の差に比例する.このため，動作電圧を高 

あまり大き 


大 


F 童を減らす 


くすれば高速動作が可能である.しかし， 



〕7 0.1 


0.3 0.5 

ゲート長 [ ym ] 


0.7 




190 

























Appendix 3 高速化技術の基礎 


図 G NMOS トランジスタの断面 



な電圧を加えるとトランジスタが破壊されてしまう. 
製造プロセスが微細化するにしたがって，この限界電 
圧(絶対最大定格という）も低下する傾向にある.また， 
微細化により寄生容量の影響が支配的になり，電圧の 
増加に対する高速動作への寄与も飽和状態にある.し 
たがって，むやみに高い電圧を加えればよいというも 
のでもない. 

ところで，動作電圧を上げるということは消費電力 
が増大することでもある.むしろ，動作電圧の決定に 
は，動作速度よりも消費電力の限界のほうが支配的に 
なっている.したがって，近年の研究では，動作速度 
をある程度維持しつつ，いかに消費電力を下げるかが 
課題になっている.つまり，基本的には動作電圧を下 
げるとともに， V ,/,も下げるという手法が採られる. 
%/,を下げると，リーク電流が増大する傾向にあるの 
で，何らかの対策が必要なのは上述したとおりである. 
► //? ドロップ 

製造プロセスの微細化が配線の抵抗を増大させるこ 
とはすでに述べた.このため，電源からトランジスタ 
までの距離が長くなると，配線抵抗によって電圧降下 
(//? ドロップ）が発生する.これは，トランジスタの 
動作電圧を下げることに等しく，動作速度の低下につ 
ながる.このため，半導体回路では電源構造の配置も 
重要になる. 

• 製造プ□セスの微細化 
► プロセスルール 

半導体の製造 プロセスは「〇.13 " m 」 などと長さを 
指定して表現する.この値が小さいほど微細な製造 プ 
ロ セスだということができる.長さの単位は， 2001 
年く らいまでは" m (マイクロ メートル= ミクロン） が 
主流であったが， 2002 年以降は プロセスの 微細化が 
進んだため nm (ナノ メー トル）で表現することが多く 
なった. 


この長さは，トランジスタのゲートの幅を表すもの 
である.ソースとドレイン間のチャネルの長さにも等 
しいので，チャネル長ともいう.そして，このチャネ 
ル長には，リソグラフィ技術（写真のようにマスクパ 
ターンをシリコンゥェハに露光する技術）で物理的に 
形成される描画チャネル長と，ソースとドレインに実 
際に電圧を加えた場合に電気的に形成される実効チャ 
ネル長の2種類がある（図 G ). 現実には，描画チャネ 
ル長のほうが実効チャネル長よりも大きい. 

製造プロセスを表す場合に，どちらの基準を使用す 
るかは国やメーカーで異なる.一般的には，米国メー 
カーは描画チャネル長を使用し，日本メーカーは実効 
チャネル長を使用する傾向がある.しかし，このよう 
な状況は混乱を招くので，世界的には描画チャネル長 
で基準を統一する動きがある.将来的には，すべて描 
画チャネル長に統一されると予想される•具体的には， 
描画チャネル長が製造プロセスの世代を表し，実効チ 
ャネル長でゲート長を表すことになる. 

ゲート長が短いほど，高い動作周波数を実現できる. 
キャリアが移動する距離が短いほど，ゲート遅延が少 
なくなるからである. 

表 A に， Intel の製造プロセスの変遷を示す.動作 
周波数は Pentium を基本としているが， Pentium 4 に 
なってパイプラインのステージ数が増えたので，2000 
年以降は上限の動作周波数が一気に上昇している. 

► ムーアの法則 

製造プロセスが微細化するにともなってトランジス 
夕の面積は小さくなる.このため， MPU の1チップ 
に集積できるトランジスタ数は相対的に多くなる.卜 
ランジスタ数が多いということは，実現できる機能が 
多いということであり，同時に微細化により動作周波 
数も上昇するので， MPU を使えば何でもできるとい 
う世界が近づきつつある.このような半導体の進歩は， 
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図 H x 86 系 MPU のトランジスタ数 

Intel の創立者の一人である Gordon Moore 氏が1975 
年に提唱した「チップに集積可能なトランジスタ数は 
18〜24か月ごとに倍増する」というムーアの法則に 
も示されている（図 H ). 

しかし近年， このムー アの法則の有効性が いつまで 
維持できるかが注目を集めている. 「技術的 にあと2 
〜3世代 (6 年）が限界」，「18〜24か月という ペースに 
限界が出てきた丄「限界はまだまだ，問題は手段であ 
る」など，さまざまな見方がある.ところが，2001 
年になってから，この限界説が和らいできている.少 
なくとも後10年， つまり 今後5世代に関しては ムーア 
の法則は維持されるだろうと見るアナリストが多くな 
った. 


ムーアの 法則自体は経験則なので，根拠があるわけ 
ではない.半導体が ムーア の法則にしたがって進化し 
ているというよりも，半導体 メーカーがムーアの 法則 
を維持するために，それを目標として製品開発をして 
いるといったほうが正確であろう. 

► どこまで微細なパターンを描画可能か 
現在の半導体は，遠紫外線を使用するリソグラフィ 
( lithography ) 技術により，透明な石英板の上にクロ 
ム （ Cr ) でトラン ジス タや配線のパターンが形成され 
ている マスク （レチクル： reticle ) の模様を， シリコン 
のゥヱハに転写して回路を生成する.この技法では， 
今後の1〜2世代に相当する 100 nm までのパターンし 
か対応できないとされている. 2002年では，半導体 


表 A Intel の製造プロセスの変遷 


導入年 

製造プロセス 
(世代） 

ゲート長 

動作周波数 
( Hz ) 

配線 

チヤネル 

ゲート 
絶縁膜 

ゲート 

電極 

動作電圧 

1993 

0.50 /zm 

0.50 

150 — 200 M 

A 1 

Si 

Si 02 

多結晶 Si 

3.3 V 

1995 

0.35 fim 

0.35 /2 m 

233 〜300 M 

A 1 

Si 

Si 02 

多結晶 Si 

2.5 V 

1997 

0.25 um 

0.20 jum 

300 〜 533 M 

A 1 

Si 

Si 02 

多結晶 Si 

1.8 V 

1999 

0.18 

0.13 "m 

500 -2000 M 

A 1 

Si 

Si 02 

多結晶 Si 

1.5 V 

2001 

0.13 "m 

70 nm 

1.3 〜 2.4 G 

Cu 

Si 

Si 02 

多結晶 Si 

1.3 V 

2003 

90 nm 

50 nm 

3 •〇〜 5.0 G ? 

Cu 

歪み Si 

Si 02 

多結晶 Si 

1.1 V 

2005 

65 nm 

30 nm 

10 G ? 

Cu 

歪み Si 

Si 02 

多結晶 Si 

0.85 V 

2007 

45 nm 

20 nm 

20 G ? 

Cu 

歪み Si 

High-k 

金属 

0.70 V 

2009 

32 nm 

15 nm 

50 G ? 

cu 

歪み Si 

High-k 

金属 

0.6 0 V 

2011 

22 nm 

lOnm ? 

100 G ? 
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High-k 
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Appendix 3 高速化技術の基礎 


メーカーは 0.13 " m プロセスが主流であり，限界に近 

づきつつある. 

リソグラフイの光源として，0.13 までは KrF エ 
キシマ レーザが 使用され， 0.13 パ m 〜 0.10 パ m (= 
100 nm ) までは ArF エキシマレーザが有力候補とされ 
ている.これに代わる新しいリソグラフイ技術がなけ 
れば，半導体 メーカーは 2004年か2005年に壁に突き 
当たり，それ以上 MPU の集積化 （= 高速化)ができな 
くなってしまう.その候補としては， F 2 エキシマレー 
ザ(波長： 157 nm ) ,等倍 X 線，縮小 X 線，電子ビー 
ムなどがある•それぞれ一長一短があり決定版はない. 

► EUV (超紫外線）リソグラフイ技術 

新しいリソグラフイ技術として期待されているのが 
EUV(Extreme Ultra Violet ) リソグラフイ技術である. 
KrF リソグラフイで使用する波長は 246 nm ， ArF リ 
ソグラフイで使用する波長は 193 nm であるが ， EUV 
はこれよりもずっと短い波長を使用する. EUV では 
最高で 30 nm という微細な露光が可能になり，2005年 
〜2006年には 10 GHz の MPU を実現することが可能 
になるといわれている. 

Intel , Motorola , AMD , Micron Technology , 
Infineon Technologies , IBM などが参加している民 
間の業界 コンソーシアム EUV LLC(Extreme Ultra 
Violet Limited Liability Company ) は ， EUV リソグラ 
フイ技術を用いた MPU を搭載するプロトタイプ機が 
完成したことを2001年3月に発表した.これら各社に 
は，メ ンバ 以外の半導体 メーカーに 先駆けて EUV 装 
置を導入する権利が与えられている. 

2002年4月， Intel がオランダの半導体製造装置メー 
カーに EUV リ ソ グラフ イ 用の装置のガ版を発注した 
ことが明らかになった.納品は2005年下半期とかな 
り先のことだが，新しい ツールの 導入には各種の微調 
整に時間がかかるため長いリードタイムが必要になる 
ということである. EUV を採用した MPU の出荷は5 
年以内に始まる見通しという. 

► EB (電子ビーム）リソグラフイ技術 

IBM は， EUV リソグラフイの重要性を認めてはい 
るが ， EB (Electron Beam ) リソグラフイ技術もニコ 
ンとの共同事業としてサポートし続ける予定だとい 
う.両社は， 「 Prevail 」 と名付けた EB リソグラフイ 
技術を共同開発している. 2003年時点で Prevail は開 
発の a 段階にある. 

EB リソグラフイ技術は， EUV リソグラフイより波 
長が数桁短いので， EUV よりもはるかに細かいパ 


ターンを描くことが可能だが，一度に描画できる面積 
が EUV よりも小さい.したがって， EB を使った大量 
生産は EUV と比べて非常に遅い. 

業界では，この二つの技術は競合すると見られがち 
であるが， IBM は二つの技術を補完的に組み合わせ 
て応用することを考えているらしい. EUV で MPU の 
大きな構造を一度に描き上げ，電子ビームでより微細 
かつ重要な部分を描くというのがその計画だという. 
• フィン FET と多重ゲートトランジスタ 

FET とは電界効果トランジスタ （Field Effect 
Transistor ) のことである.ソースとドレイン間の電 
流をゲート電圧で制御する通常のトランジスタであ 
る.従来の FET はプレーナ型と呼ばれ，シリコンに 
不純物を注入してソースとドレインを形成し，ソース 
とドレイン間のチヤネルの上部に絶縁膜を挟んでゲー 
卜電極を配置する.つまり，平面状に，ソース-チヤ 
ネル-ドレインが並んでいる〔図 I ( a ) 〕 . 

FinFET は，プレーナ型 FET を拡張し，立体構造 
にすることで，高速動作性能と省電力性能を高める. 
絶縁基板上にソース-ドレインが直方体状に形成され， 
その間にあるチヤネル部の両側を絶縁膜を挟んでゲー 
卜電極が包み込む〔図 1( b )〕. ゲート構造がフィン（ひ 
れ）のような形状をしているところから FinFET と呼 
ばれる.この FinFET は，高速化，高集積化，低消費 
電力化を実現できる次世代のトランジスタ構造として 
注目を集めている. 

FinFET は，1999年11月22日カリフォルニア大学 
のバーク レー 校で コ ンピュータサイエンスを担当する 
チェンミン.フーに. Hu ) 教授らのグループが発明し 
たとされている.その設計技術を用いれば，1チップ 
上に従来の400倍のトランジスタを搭載できるという. 

フー 教授らが開発したのは，ゲートをチヤネルの両 
側に ま たがる フォーク 形にして，チヤネル電流を効果 
的に コントロール する方法である. フー 教授の例えを 
借りれば，「出血を止める場合，両側から血管を挟め 
ば，片方向から押すよりはるかに効果がある」という 
ことである.研究 グループが 1999年7月に製造したブ 
ロト タイプのゲー ト 長は 18 nm である. 

FinFET と同等の発想をもつトランジスタの発表と 
しては，2001年12月に IBM がダブルゲートトランジ 
スタの実用化に向けた開発成功を発表，2002年6月に 
は TSMC が 35 nm のゲート長で動作可能な高性能 Fin 
FET の開発について発表した.さらに，2002年9月 
には， AMD がゲート長 10 nm の FinFET を試作した 
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チャネル(ゲートに包み込まれて見えない） 

(b) FinFET 

図Iプレーナ型 FET と FinFET 

ことを発表，続いてインテルがトライゲートトランジ 
スタの開発を発表した. 

FinFET は，現在の半導体製造技術で容易に製造で 
きることに加え，プレーナ型 FET と比較して次のよ 
うな利点がある. 

1) ゲート面積を大きくできるため，チャネルを流れ 
る電流量を大きくできる.すなわち，高速なスイッチ 
ングが可能になる.同じトランジスタ能力なら，チャ 
ネル電流量を少なくすることができるので，低消費電 
力を実現できる. 

2) プレーナ型では微細プロセスになるほど短チャネ 
ル効果の抑制が困難になり，リーク電流が増加する. 
FinFET ではチャネルをゲートで包み込むため，ゲー 
卜絶縁膜をそれほど薄くしなくてもチャネル部にキャ 
リアを集めやすく，高速動作，あるいはゲートリーク 
電流の制御が容易になる. 

なお，短チャネル効果とは，ゲート長（チャネル長） 
が短い場合，ソースとドレインが近づき過ぎるとゲー 
卜を閉じていてもソースとドレインの間でリーク電流 
が流れてしまう現象を指す. 

3) プレーナ型はチャネル部がチップの表面に平行で 
あるため，チップの単位面積当たりの駆動電流量は一 
定である.しかし， FinFET ではチャネル部がチップ 
に対して垂直であり，フィンの高さを上げることでチ 
ップの単位面積当たりの駆動電流量を容易に増やすこ 
とができる.これも高速なスイッチングに寄与する. 

4) 3次元的にトランジスタを形成するため，トランジ 
スタ面積を小さくでき，単位面積当たりのトランジス 
夕数を増加させることができる. 


2003年6月12日， Intel は 30 nm プロセスの トライ 
ゲートトランジスタの開発に成功したと発表した.従 
来のゲート長は 60 nm だったが，今回 30 nm で製造（プ 
ロセスルールは 90 nm ) できたことで，トライゲート 
トランジスタは研究段階を終えて開発段階に到達した 
と発表した. 1.3 V 動作時の NMOS でオン電流 1.23 
mA / jum , オフ電流 40 nA /// m を達成しており，この 
電流駆動能力は非プレーナ型では世界記録としている. 

Intel は，2007年に 45 nm プロセスでトライゲート 
トランジスタの実用化を目指すという.また，他社の 
ダブルゲートトランジスタや FinFET と比べ，ソース 
とドレインを形成するシリコン層の厚さはプレーナ型 
ではゲート長の1/3倍が限界，ダブルゲートではゲー 
卜長の2/3倍が限界とし，トライゲートトランジスタ 
ではゲート長と同じ長さにできる （3/3 倍）ので製造が 
容易で大量生産に向くとしている. 

2003年9月18日， AMD は，東京で開催された国際 
固体素子 • 材料カンファレンス （ SSDM ) で実験的な卜 
ライゲートトランジスタを紹介した.このトランジス 
夕には，完全空乏型 SOI 技術，金属（ニッケルケイ化 
物）ゲートが採用されている.研究をしているという 
以上の意義はないが，このトランジスタは2007年ま 
でに実用化されるという. 

また，2003年11月10日， Motorola は二つのゲート 
がそれぞれ独立に機能する デュアル ゲートトランジス 
夕 | Multiple Independent bate Field Effect 
Transistor 」（ MIGFET ) の開発に成功したと発表した. 
通常のマルチゲートトランジスタは，複数のゲートが 
同じように動作する.しかし， Motorola の MIGFET 
では，ゲートが電気的に分離された状態にあるため， 
開発者の意図に応じて同時動作や個別動作が可能なの 
で，性能向上と電力低減に多大な利用法を提供する. 

たとえば，トランジスタ数百万個が必要な複雑な計 
算も，約半数のトランジスタで実行できるようになる 
という. Motorola は，この技術の製品適用時期を明言 
していないが，別のメーカーは，このような技術は 
2007年から2008年の 45 nm プロセスで実現されるだ 
ろうとしている. 

• 最近の話題から 
► 配線技術の新機軸 

ZDNet によると，2002年6月19日，プリンストン 
大学の Stephen Y . Chou 氏らは，シリコンチップに 
10 nm 規模の配線パターンを直接プリントする手法 
を開発したと発表した. 
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Appendik 3 高速化技術の基礎 


I Laser-Assisted Direct Imprint 」（ LADI ) と呼ばれ 
るこの手法は，酸化シリコン （ Si 0 2 ) でできた金型をシ 
リコン基板に押しつけ，その上から波長 308 nm のエ 
キシマレーザを200億分の1秒間パルス照射すること 
で，金型の周りのシリコンを加熱融解させて再度凝固 
させる.凝固までの時間は 250 ns . 線幅 140 nm の加工 
に成功しているという. 

この技術により，製造ステップを減らすだけでなく， 
ナノ秒単位でプリントプロセスを終えることができ 
る.そのため，従来のエッチング作業は不要になる. 
また，シリコンチップのトランジスタ集積度は従来の 
100倍となり，ムーアの法則をあと20年延命させるこ 
とができるという. 

従来のリソグラフィ技術では，露光という非接触な 
方式を使っているため，フォトマスク（レチクル）は数 
千回以上の使用に耐える.しかし，今回の技術は物理 
的な接触が行われるため，金型の耐久性が気になると 
ころである. 

また，金型の加工時間にかなりの時間を要すると想 
像されるのと t 具体的な金型の製造方法がはっきりし 
ないので，一般な技術になるか否かは不明である. 

► 65nm プロセスの SRAM 

2003年11月24日， Intel は 65 nm プロセスの SRAM 
の製造に成功したと発表した. 65 nm プロセスにする 
だけで，性能は40〜50%高速化するという. 65 nm 
プロセスでは，消費電力を抑えるために，歪みシリコ 
ンと low - k 絶縁膜を使用しているという. 

なお， 65 nm プロセスではトライゲートトランジス 
夕や金属ゲート， high - k 絶縁膜は採用しない.こうし 
た技術は，2007年に登場する 45 nm チップに採用され 
る可能性があるということである.これは，当初の予 
定通りである. 

また， Intel の 65 nm プロセスでは， IBM などが研 
究している SOI 技術も採用されないという.インテル 
によれば， SOI では取り立てて性能向上は見られなか 
ったそうである. 

► ムーアの法則の終焉 

2003年11月， Intel の技術者により Proceedings of 
the IELE (Institute of electrical and Electronics 
Engineers ) に 「Limits to Binary Logic Switch 
Scaling - A Gedanken Model 」 と題した論文が掲載 
された.これは2018年に登場するであろう 16 nm プロ 
セスでムーアの法則が終わりを告げるというもので 
ある. 


トランジスタが微細化し，ゲート長が 5 nm (これは 
16 nm プロセスに相当）程度になると，ゲートに電圧 
をかけなくてもトンネル効果でソースとドレイン間に 
電流が流れるようになる.これではスイッチとしての 
トランジスタの効果がなくなる. 

また，物質から電子を取り出せる限界は1.5_とい 
うことから，ゲート長の限界は 1.5 nm といわれている. 
このような限界のためトランジスタの微細化には終点 
があり，それを避けるために，トランジスタは3次元 
的な階層構造を採って集積度数を上げようとするだろ 
うといわれている. 

► 浸漬露光システム （Immersion Lithography) 

90 nm プロセスにおける露光技術の光源は， ArF エ 
キシマレーザ（波長： 193 nm ) であり，この解像度は 
約 97 nm である.この光源は，技術の工夫で 65 nm ま 
では耐えられるが，その次の 45 nm プロセスでは対応 
できない.そこで F 2 レーザ（波長： 157 nm ) が考えら 
れているが，なかなか実用化にならない.その対抗馬 
として有力視されているのが浸漬露光システムである. 

浸漬露光システムとは，光源のレンズとウェハの間 
に蒸留水を満たすことで光の屈折率を高め，レンズの 
開口数を改善して解像度を上げる技術である.これに 
より F 2 レーザの波長は 131 nm 相当になり，解像度は 
約 53 nm になる.これは 45 nm プロセスに対応可能な 
解像度である. 32 nm プロセスまで可能ではないかと 
いう研究者もいる.しかし，原理は簡単であるが，ウ 
ェハをどう動かすかという問題やフォトレジストの問 
題があり実用化は難しいと思われていた. 

ところが，2003年になって実用化の兆しが出てき 
た.この分野は ASML ， キヤノン，ニコンが共同で開 
発を行っている. 2003年12月に開催された Semicon 
Japan で， AMSL は半導体メーカーの実験用に浸漬露 
光装置を販売するとしている.また，ニコンも2006 
年には量産用の浸漬露光装置を販売すると発表して注 
目を浴びている. 

なお， Intel は 45 nm プロセスまでは F 2 レーザを使 
用し，その先は EUV や EB といった光源を使用する 
としている.しかし， 32 nm プロセスでの浸漬露光採 
用の可能性も匂わせている. 

* 氺 

ここでは，主としてトランジスタレベルでの高速化 
技術をまとめてみた.この分野は日進月歩なので，ま 
だまだ技術革新を遂げていくと考えられる. 
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イク□プ□グラミングと VLIW 





ここでは マイクロプログラミングと VLIW について取り上げる • マイクロプログラミングは最近では見られなく 
なった MPU の実装方式だが，あえて取り上げるのには理由がある.それは VLIW との関係である.どのような 
関係があるのか，それは本章を読んでもらえばわかると思う_いまどき時代錯誤では，といわずに読んでみてほ 
しい. 


7 マイクロプログラミングの概念 

•マイク□プログラミングとは 

マイクロプロ グラミングの概念は1951年にケンプ 
リッジ大学の M . V . Wilkes によって提案された.その 
目的はコンピュータの制御系を効率的に設計すること 
である. 

図 1 に コンピュータ （ MPU ) の基本的な構成図を示 
す.プログラム（命令）は主記憶（キャッシュの場合も 
ある）からバス制御ユニットによって読み出され，命 
令 デコーダでデコード される.そして，その デコード 
情報をもとに命令が実行(処理）される.この実行制御 
部の設計を効率的に行うのがマイクロプログラミング 
である. 

MPU の実行はマイクロ操作 ( micro - operation ) と呼 
ばれる基本操作の組み合わせによって実現されてい 



図1 コンピュータ (MPU) の 基本的な構成図 


る.制御回路はマイクロ操作を制御する信号を次々と 
発生する.図2にそのような MPU の実行制御部の概 
念図を示す.デコードした結果をもとに， （1) レジス 
夕番号を指定する， （2) 演算の種類を指定する， （3) レ 
ジスタを選択する， （4) レジスタの内容を演算器に与 
える， （5) 演算結果をレジスタにライトバックすると 
いった操作を実行することで命令が実行できるが，こ 
れらの操作がマイクロ命令である.初期の MPU や最近 
の RISC では，論理回路の組み合わせでこの制御信号 
を生成している.これがワイヤードロジック (wired 
logic ) と呼ばれる方式である.ワイヤードロジックの 
設計は非常に複雑であり，設計ミスをした場合の修正 
も容易ではない. 

マイクロ操作を実現するためのマイクロ命令という 
ものを考える.つまり，マイクロ命令は同時に発生す 
る制御信号に関する情報をまとめて，命令の形式に収 
める.こうすることで， MPU の実行はマイクロ命令 
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コードと呼ばれることもある.意味的には，ハードゥ 
ェアとソフトウェアの中間にあることからファーム 
(やや硬い）ウェア （ firmware ) と呼ばれることもある. 
また，マイクロプログラムで MPU の実行を制御する 
方式をマイクロプログラム制御方式，あるいはマイク 
ロプログラミング方式と呼ぶ.なお，マイクロ命令に 
対応して，通常の命令はマクロ命令と呼ばれる. 

マイクロプログラム 制御方式に おいて，マイクロプ 
ログラム は適当な記憶装置（通常は ROM なのでこれ 
を マイクロ ROM と呼ぶ）に格納される.そして， マ 
クロ 命令は マイクロ RQM 内の ア ドレスが エンコード 
して格納されているとみなすことができる. つまり， 
ある マクロ 命令がデコ ー ドされると マイクロ ROM の 
アドレスが決定される.同時に，オペランドの種類や 
演算の種類がデコードされて保持される.命令の実行 
ステージでは，その マイクロ ROM から マイクロ 命令 
が順次読み出されて実行される（図 3). 

図 4 にマイクロプログラム制御でマクロ命令が実行 
されるようすを概念図で示す.イメージとしては，メ 
モリ（マイク aROM ), デコーダ，実行部（マイクロ操 
作生成）があることから， MPU の内部にさらに小型の 
MPU がある感じである.そもそも，歴史的に見れ 
ば，最初の MPU である Intel の4004はプログラムを 
格納する ROM の内容を交換することで，種々の電卓 
に対応しようとした.マイクロプログラムもマイクロ 
ROM の内容を交換することで種々の命令セットに対 
応できる，この奇妙な一致は偶然ではあるまい. 


主記憶 

(またはキャッシュ） 


制御部の設 

計がすっきりしたものになることである. MPU の制 
御論理はマイクロプログラムで実現されるので，その 
論理設計はマイクロプログラムを作成することが中心 
となる.マイクロプログラムが完成する前に制御部の 
ハードウェアを並行して(早期に）設計できる.これは 
命令セツトアーキテクチャが定まっていな I 、状態でも 
MPU の設計を始めることができることを意味する. 
あるいは，設計の後半で仕様変更が生じた場合でも， 
マイクロプログラムを変更すれば，ハードウェアの変 
更なしで対応できる.その意味で命令の追加も容易で 
ある. 

さらに， マイクロ ROM の内容を変更することで 
MPU の制御論理を容易に変更できる.極端な話，一 
つのハー ドウェアで複数の命令 セツ トを実行すること 
(別の MPU のエミユ レー シヨン）が可能になる. マイ 
クロプログラム 次第でどのような アーキテクチャの 
MPU にもなることもできるのだ. 

• マイク□命令の詳細 

以下では，マイクロ ROM に格納されるマイクロ命 
令について説明していく. 

マイクロ命令は，通常，次のような情報から構成さ 
れる. 

( a ) 1ステツプの間に同時に実行されるマイクロ操作 
を指定する情報 

( b ) 次に実行するマイクロ命令を決定する順序制御に 
関する情報 

( c ) マイクロ命令で使用する定数 



プログラムと呼ぶ.マイクロプログラムはマイクロ 


マイクロプ D ゲ勺ム制 I 御卡才 rrv 如 


第7章マイクロプログラミングと ^ JW 


命令レジスタ 
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マイク□操作信号 

図5水平型マイクロ命令 



図6垂直型マイクロ命令 


また，マイクロ命令はこれらの情報の表現形式によ 
っていくつかの方式に分類することができる.大別す 
ると，水平型 (horizontal type , function/field type ； 
と垂直型 (vertical type , machine code type ) の二つ 
である. 

(1) 水平型マイクロ命令 

水平型のマイクロ命令は，マイクロ命令の各ビット 
が処理装置のゲートなどの制御点に1対1で対応して 
いる点に特徴がある.しかし当然ながら，処理装置が 
複雑になると，制御点も多くなり，マイクロ命令に必 
要なビット数も増加し，実用的でない.通常はエン 
コードすることでビット数を減らす方法を採ってい 
る.具体的には，マイクロ操作信号を適当なグループ 
に分けて，各グループごとにエンコードしてビット数 
を削減する.この場合，マイクロ命令を実行するため 
には各 グループ （フイ ー ルドという）ごとに デコー ダが 
必要になる（図 5). マイクロプログラムの作成者は， 
各サイクルごとのハードウエアの動き（各制御点の状 
態）を考慮してコーディングしなければならないので， 
かなりの技術を要求されることとなる. 

(2) 垂直型マイクロ命令 

垂直型のマイクロ命令は，どちらかといえばマクロ 



マイク□操作 


図7マイクロ命令の実行 


IF :命令フェッチ 
ID :命令デコード 
EX ： 命令実行 


命令に近い.つまりマイクロ操作のエンコードを複雑 
にすることにより，マイクロ操作に1対1に対応する 
という感覚がなくなってしまっているのである •図 6 
に，その1例を示す.ここで F は操作コードであり， 
実行する動作を示す • 01，02，…，は操作オペラン 
ドフィールドで，演算回路の入力や結果の行き先を示 
す.マイクロプログラムの作成者にとっては，マクロ 
命令のプログラミングを行う感覚でコーディングでき 
るので親しみやすい.また，アルゴリズム記述向きの 
形式なので保守もしやすい. 

垂直型の マイクロ 命令は，ハードウェアとしては同 
時動作が可能であっても，エンコードの都合により， 
一つのマイクロ 命令では同時に指定できないことがあ 
る.したがって，垂直型では水平型に比べて マイクロ 
プログラムのステ ッ プ 数が増加する傾向にある.高度 
なエンコードによって マイクロ 命令のビット数を削減 
した反面， マイクロプログラムの 容量増加につながっ 
ている. 

もっとも，現実のマイクロ命令は，水平型，垂直型 
の区別ができないものが多いのも事実である.両者の 
利点を折半した中間形式のマイクロ命令も多いらし 
い.この中間形式のものを対角型 （diagonal type ) と 
いうことがある. 

• マイク□プ□グラムが実行されるようす 

図7にマクロ命令実行時のマイクロ命令が実行され 
るようすを示す.マクロ命令のデコードが終了すると 
マイクロ ROM へのアクセスが開始され，次のクロッ 
クでマイクロ命令が出力される.図7ではマイクロ命 
令の読み出しと同時にデコードが行われ，すぐにマイ 
クロ操作が実行される場合を示している.また，マイ 
クロ ROM へはパイプライン式に毎クロックごとにア 
クセスするものとし，マイクロ命令も每クロックごと 
に読み出せるものとしている.図7ではマクロ命令が 
4ステップのマイクロ命令で実現できる場合を示して 
いるが，最初の ROM の読み出しに1ステップかかる 
ので，マクロ命令の実行には，実質5クロックかかる. 
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第 7 章マイク□プログラミングと VLIW 



IF :命令フエッチ 
ID :命令 デコー ド 
EX :命令実行 


定数発生 MA 2 MI 2 


マイク OROM 
アドレス 


マイクロ 

命令 


マイク□操作 


図81ステップ目の ROM アクセスを省略 


加減算のような単純な命令は，通常，1〜2ステッ 
プのマイクロ命令で実行できるので，マイクロ ROM 
をァクセスするための1クロックは性能に影響を与え 
る.これを省略する方法がある.もともと加減算のよ 
うな単純な命令は，たとえば， 

(1) ソースオペランドを読み出し，演算器に演算の種 
類を設定する.同時にオペランドを演算器に入力 
する. 

(2) 演算結果をデスティネーシヨンオペランドに書き 
込む. 

というマイクロ命令で実行できる.これは，加算であ 
ろうが減算であろうが，同じマイクロ命令で実現でき 
るのである.つまり，マイクロ命令は固定されている 
ので，単純な命令の場合は，最初の1ステップに関し 
てはマイクロ ROM を参照することなく定数発生器で 
マイクロ命令を生成して実行してよい.この場合，定 
数発生に時間はかからないので，命令の実行を1クロ 
ック短縮できる.マイクロプログラムの2ステップ目 
以降は，1ステップ目からマイクロ ROM をアクセス 
しておけば，遅延なしでマイクロ命令を読み出せる 
(図 8). 


• 2 レベルのマイク□プ□グラム 


マイクロプログラムを2レベルにして，マイクロプ 
ログラムの融通性を増加させたり，変更や修正を容易 
にすることが考えられる.マイクロ ROM の容量を減 
少させるためには，定型的な処理はサブルーチンとし 
て1か所にまとめ，そこをコールするようにする•特 
に，垂直型のマイクロプログラムの場合，垂直型はェ 
ンコードが複雑になるため，サブルーチンを水平型に 
してマイクロ命令のデコードの負荷を軽減することも 
ある.実際には，マイクロ ROM と別個に水平型マイ 
クロ命令の格納された ROM を用意し，ある種（複雑 
な）のマイクロ命令の場合は，その付随する ROM か 



マイク□操作信号 マイク□操作信号 

図 9 ナノプログラムの概念 


ら水平型マイクロ命令を読み出して，デコードし実行 
する. 

単純なマイクロ命令に つぃては 通常の デコーダでデ 
コードす る.このような水平型のマイクロ命令は，マ 
イクロ命令よりも細かぃ処理をするとぃう意味で，ナ 
ノ命令と呼ばれる.複雑な命令や定型処理はマイクロ 
命令を デコード する前に，ナノ ROM のアドレス情報 
を生成するのである. 図9 にナノプログラムを使用す 
る場合の構成図を示す. 

単純な構成なら， 一つのマイクロ 命令は 一つの ナノ 
命令に対応する.この場合では，実質，水平型の マイ 
クロプログラムと 大差は ない. ただし，ナノ ROM の 
容量を削減するた め， 単純な マイクロ 命令はそのまま 
デコードして実行する.経験的に（垂直型の） マイクロ 
命令のほうが，（水平型の）ナノ命令よりもビット長が 
短くなるからである.ナノ プログラムを サブルーチン 
的に利用する場合は， 一つのマイクロ 命令に対して複 
数のナノ命令が対応する.つまり， マイクロ 命令によ 
つてナノ ROM のアドレスが与えられると，そこから 
逐次的にナノ命令を読み出し，その処理の終了コマン 
ドを実行するまで実行を続ける.この方式は，アルゴ 
リズムの記述には マイクロ 命令を用ぃ，実際の（複雑 
な）ハードウエア制御にはナノ命令を用ぃることにな 
るので，効率的な マイクロプログラミングが 行える. 

聞くところによると，8086は1レベルのマイクロ 
コード制御であるが，68000は2レベルのマイクロ 
コード制御を行ってぃたとぃう. 

• マイク□プログラム制御方式の欠点？ 

これまで述べてきたように，マイクロプログラムは 
ハードウ エアのマイクロ 操作信号を容易に生成でき， 
変更も容易で，保守もしやすい.しかし，現在ある 
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MPU でマイクロプログラムが使用されるケースは， 
最大手の Intel 系列以外はあまり見あたらない.その 
理由はなぜだろうか. 

それは，世の中の MPU の風潮が RISC になってい 
るのと関係がある.そもそも， RISC は1クロックで 
実行できるような単純な命令しかサポートしない注. 
その動作を実現するマイクロ操作信号も比較的単純で 
ある.こうなると， MPU 内部に（マイクロ） ROM をも 
ち，（マイクロ命令の） デコーダを ももつということは 
回路規模の増加になる.別に RISC をマイクロプログ 
ラムで制御してもかまわないのだが，それではハード 
ウェア資源のむだ遣いである.つまり，マイクロプロ 
グラムが用いられない理由は，それに致命的な欠点が 
あるわけではなく，必要性がないからである. 

x 86 アーキテクチャは，互換性のために，古き良き 
(?) CISC の命令をいまだにサポートしている.これ 
らの複雑な処理を行う CISC 命令は，今でもマイクロ 
プログラムによって実現されている.よく，マイクロ 
プログラムによる実行は遅いといわれるが，これはか 
なり誤解を招く表現である.マイクロプログラムで実 
行するような複雑な命令は1クロックで処理すること 
ができないので，パイプライン処理に乱れが生じ，結 
果として命令のスループットが悪くなる.つまり，マ 
イクロプログラムに原因があるのではなく，長くばら 
つきのある命令実行時間に問題があるのだ. 

もっとも，マイクロプログラムを使用すると RQM 
の読み出しに1クロックを必要とし，命令の最低実行 
時間が2クロックになるために遅いという意見もある 
だろう.基本命令に関しては，図8に示したような方 
法で ROM の読み出し時間をなくすこともできる.パ 
イプライン制御を行う場合，スループットは最長のス 
テージに律速されるためである.しかし，命令実行中 
は次の命令の デコード 中でもあるので，命令実行 ス 
テージが始まる前にマイクロ ROM のアクセスを開始 
して，最初の1クロックの遅延を稼ぐことも可能では 
ある.これは， マイクロ ROM の アドレスがデコード 
後に決定することを考えると，速度的に非常に厳しい. 
ただし， デコー ドと実行ステージの間にオペランドリ 
ードステージを新設すれば実現は可能である（パイプ 
ラインのステージが増加した分，分岐の性能が悪くな 
るが). 

あるいは， マクロコードを タグ，そして マイクロ 命 


令をデータとする，マイクロプログラム用のキャッシ 
ュを内蔵する方法もあるかもしれない.まあ，マイク 
ロブログラミング制御を行うのは主として CSIC であ 
り， CISC でそんなにスムーズに流れるパイプライン 
を有する MPU はまれなのだが.このへん辺のオーバ 
へッドはあまり考慮されていないような気がする•結 
論としては，うまく作れば，マイクロプログラム制御 
が遅いということはない. 

結局，マイクロプログラム制御で最高性能を出そう 
とすれば，現在の高速 MPU の内部で行われているキ 
ャッシュ，パイプライン，分岐予測，投機実行といっ 
た処理をマイクロプログラムの制御に適用することに 
なる.これは，マイクロプログラムの制御機構そのも 
のが RISC あるいは VLIW プロセッサと同一視できる 
ということを示す.つまり， MPU とは，マイクロコー 
ドで動作する RISC ( VLIW ) プロセッサが，マクロ命 
令を解釈し，実行するコンピュータシステムそのもの 
ということである. 

もう少し歴史的に考察すれば，マイクロプログラミ 
ングの生まれた背景には，主記憶のアクセス時間の遅 
さがある.マイクロプログラミングが全盛だった 
1960〜1970年代に，プログラムを格納する主記憶と 
して磁気コアメモリが用いられていた.これは，半導 
体メモリ （ ROM ) と比べると，アクセス時間が10倍程 
度遅い.そこで，主記憶からフェッチするマクロ命令 
のコードサイズを小容量かつ多機能にし，それをアク 
セス時間の速い R 〇 M に格納されたマイクロプログラ 
ムで高速に実行することが考えられた.いきおい，一 
つの命令に種々の機能を盛り込む傾向になる . MPU 
の命令セットはマイクロプログラムで実行されること 
を前提として設計されている.これは，まさに CISC 
の考え方である.しかし1970年代の後半からは，キ 
ヤツシュメモリというアクセス時間の速いメモリを利 
用することが可能になり，マクロ命令のフェッチとマ 
イクロ命令のフェッチに時間差がなくなった.こうな 
ると，上述したように，わざわざマイクロプログラム 
を用いる利点がなくなる.将来的には，キャッシュメ 
モリに比べて非常にアクセス時間の短い ROM が開発 
されるか，キャッシュメモリ自体が有効でなくなるよ 
うな技術的革新が起きない限り，マイクロプログラミ 
ングの復権はなさそうである. 

ところで， MPU が実行するマクロ命令がマイクロ 


注：最近では他社との差別化のために， RISC でも複雑な命令をサボートする傾向にある. 
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VLIW 





FP ADD 

FP MULT 

Int ALU 

Branch 

Load/Store 



スロツト 0 スロツト 1 スロツト 2 スロット 3 スロット 4 


図10 VLIW の概念図 



命令そのものだったらどうだろうか.その場合，プロ 
グラムの実行を最高速で，しかも並列に実行すること 
が可能になる.事実 ， DSP (Digital Signal Processor ) 
でのプログラミングはマイクロプログラムの香りを残 
している.プログラムは DSP の内部ユニットと密接 
に関連しており，プログラマはその内部状態を考慮し 
て最適な動作になるように調節する必要がある.でき 
るだけ多くのユニットを並列に動作させるようにする 
のがキーポイントである.そのため，（アセンブラに 
よる）プログラムは非常に.難しいが，これによって得 
られる性能は非常に高速である.世間的には 
「DSP =高速プロセッサ」というのが常識であるが， 
これはプログラムがハードウエアをもっとも高い効率 
で動作させるためである.以下に述べる VLIW に関 
しても，そのようなイメージが付いて回る.読者の 
方々はどのように思われるであろうか. 



• VLIW とは 

VLIW (Very Long Instruction Word ) とは，その名 


称のとおり「非常に長い命令語」を意味する.一般に， 
命令は128ビット程度の固定長で， MPU が持つ機能 
ユニットと1対1に対応する「スロット」という領域 
から構成される.スロットには対応するユニットを制 
御する命令が埋め込まれ， VLIW の1命令が実行され 
ると，各スロットの命令が同時実行される.つまり， 
1ステップで複数の命令が実行される.図 10 に VLIW 
の概念図を示す.実行に際し，スロット間の依存関係 
は考慮しない. VLIW は スーパー スカラとは異なり， 
ハードウェアが同時実行できる命令を自動判別するわ 
けではない（命令内で明示的に指定されている）ので， 
命令発行ユニットを簡略化できる. 

一方，それぞれの命令の各スロットが最大限に機能 
するように割り当てる必要があり，この非常に高度な 
技術を実現するという負荷を コンパ イラに課すことに 
なる. コンパイラは 与えられた命令列から同時実行可 
能な命令の組を探し出し， VLIW 命令の各スロットに割 
り当てる.スロットに入るべき命令がない場合は NOP 
(No Operation ) を入れる.これを命令スケジユーリ 
ングという（図 11 ). 

スーパースカラと VLIW を比較すると， MPU 内部 


図11 

コンパイラによる命令 
スケジューリング 


命令列 
命令0 
命令1 
命令2 
命令3 


命令/V 



スロツト 0 スロット 1 スロツト 2 スロツト 3 














命令 7 

NOP 

命令 8 

命令 9 

NOP 

命令 6 

NOP 

NOP 

命令 3 

NOP 

命令 4 

命令5 

NOP 

命令 1 

命令 2 

NOP 
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に同時実行を行うしくみを実装する必要がなくハード 
ウェアを簡略化できるという利点がある反面，コンパ 
イラが頑張っても，常に最高の個数（スロットの数）の 
命令を同時実行できるとは限らず， NOP が余分に発生 
する分だけプログラムのコード効率が悪くなる（コー 
ドサイズが増加する）という欠点がある. 

VLIW の発想は ， Control Data の CDC 6600や IBM 
360/91という最初のスーパーコンピュータで採用さ 
れていたマイクロコードの並列実行方式に由来する. 
それらのコンピュータが活躍した1960〜1970年代で 
は，アレイプロセッサや専用のシグナルプロセッサが 
ROM に格納された VLIW に良く似た語長の長い命令 
を用い，高速フーリエ変換などのアルゴリズムを計算 
していた. 

真の VLIW マシンは1980年代初期に三つの会社 
( Multiflow , Culler , Cydrome ) から発表されたミニ 
スーパー コンピュータだった.それらは商業的には成 
功しなかったが，これらのコンピュータに適用された 
コンパイラ技術はむだにはならなかった.その後， 
HP (Hewlett Packard ) は Multiflow を買収し，現在の 
HP の VLIW のコンパイラ開発は Multiflow 出身の 
Josh Fisher と Cydrome 出身の Bob Rau を中心に 行わ 

れているという.ト レース スケジ ユーリ ングとソフト 
ウェアパイプライニングは，それぞれ， Fisher と Rau 
が先駆者であり，現在も VLIW コンパイラ技術の中 
心的役割を果たしている.なお， VLIW 用に開発され 
たコンパイラの並列化技術の多くが スーパー スカラ用 
のコンパイラに採用されて成功を収めているのは痛烈 
な皮肉である. 

ところで， VLIW の嚆矢となった Multiflow -7/300 
は二つの整数 ALU ， 二つの浮動小数点 ALU ， 分岐ユ 
ニットを有していた（これらは複数のチップで構成さ 
れていた）.その256ビットの命令語は七つの32ビッ 
卜長のオペレーションコードを含んでいた.各整数ユ 
ニットは 130 ns ごとに二つのオペレーションを実行で 
きた（合計4命令）ので，約 30.8 MIPS という性能にな 
る.当時としてはかなり高性能な部類だ.また7/300 
を複数組み合わせて，より高性能な512ビットや1024 
ビット幅のマシンを構成することもできた. 

一方， Cydrome のコンピュータである Cydra -5 は， 
各命令を六つの40ビットの操作として順次実行する 
特殊モードを備えていたが，256ビットの命令語を使 
用していた.そのため，その コンパイラは 並列コード 
と従来どおりの逐次的コードをミックスしたコードを 


生成したという. Cydra -5 は Multiflow とは異なり， 
プレディケーシヨン，ソフトウェアパイプラインとい 
った VLIW コンパイラの基本的な並列化技術をすで 
に採用していたといわれている. 

双方の LVIW マシンとも複数のチップで構成され 
ていたが，最初の1チップの VLIW は1989年に発表 
された Intel の i 860 であるといわれている.二つの32 
ビット命令(整数と浮動小数点）を64ビット命令とみ 
なし，1度に命令キャッシュから取り込んで同時に実 
行するデュアル命令モードを備えていた. 64ビット 
長なので LIW(Long Instruction Word ) と呼ぶのが正 
しいかもしれない. i 860 は，世間には DSP として受 
け入れられ，もっぱらグラフィックアクセラレータと 
して利用された（最近は RAID コントロー ラ用途のほ 
うがメジャーかも）.なお， i 860 では，命令を正確に 
実行する責任はハードウヱアよりもむしろコンパイラ 
に任せていた.結果として i 860 は成功しなかったが， 
すべてソフトウヱア任せというハードウェアの自由度 
の低さが一因だったのでなかろうか.結局，コンパイ 
ラがうまく開発できなかったのだろう. 

ただ，当時のコンパイラ技術では，プログラムの中 
で並行に実行できるのは2命令程度という報告があっ 
た （5 命令という報告もあったようだが).また，先進 
的な並列化技術もコンピュータの非力さゆえにコンパ 
ィル時間が現実的でなく， VLIW の登場は時期尚早で 
あっ たといえる. 

• トレーススケジューリングとソフトウェアパイプ 

ライニング 

VLIW のコンパイラの基本技術である，トレースス 
ケジューリングとソフトウェアパイプライニングにつ 
いて簡単に説明しておこう. 

コンパィラは，ある命令を起点として命令列を探索 
し，それが分岐に突き当たり，プログラムの流れが変 
わるまでを基本ブロックとして最適化処理を行う•つ 
まり，命令がループになっている場合，基本的には， 
異なるループ処理問では同時に最適化を行えない.し 
かし，（おそらくは 一つの ループを含む)基本ブロック 
をまたいで命令のスケジューリング(並び替え）を行う 
手法がトレーススケジューリングなのである. 

ソフトウェア パイプライ ニング とは ループの内部を 
パイプライン的に処理できるように並び替える手法で 
ある.それには， ループアンローリング という手法が 
基本となる.これは ループをアンロール （部分的に展 
開）するものである.たとえば， 
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for(i=l ； i<=N;i++){ 

命令 1 
命令 2 
命令 3 

} 

というループを考える.これを，アウトオブオーダな 
スーパースカラで実行する場合，命令 1 ， 命令2，命 
令3の3命令では依存性が高くてうまく並列実行でき 
ないことがある.その場合たとえば，2ループを一つ 
の単位として， 

for(i=l ； i<=(N/2);i+=2) { 

叩 TJ1 
□ p - p ' 2 

叩 3 

叩 TJ 1 

命令 2 

叩 ” 3 

} 

とアンロールしてみれば，並列実行できる組み合わせ 
が見つかるかもしれない.しかし，インオーダなパイ 
プラインではあいかわらず依存性は解消されていな 
い.そこで，ソフトウェア（コンパイラ）で，並列実行 
できるように命令のスケジユーリング(並び替え）を行 
うことが考えられる.たとえば， 
for ( i = l ； i <=( N /2)； i +=2){ 

( 命令 1; 命令 1) 

(命令 2 ; 命令 2) 

(命令 3 ;命令 3) 

} 

のようにスケジユーリングすればカッコ内の組が並列 
に実行できるとしたら，処理時間が半分になる.この 
ようにアンローリングしたループ内の命令の並び替え 
をソフトウェアパイプライニングという.パイプライ 
ンというイメー ジからは， 

for(i=l ； i<=(N/2) ； i+=2){ 

( 叩ち1; ) 

(Dp-n 2 ； 口 p 1 ) 

( 口 P~n 3 ; ロロ令 2 > 

( ; 命令 3 ) 

} 

のように，命令がオーバラップする感覚で，並び替え 
られることを想定しているのかもしれない.これは， 
MPU 内部のハードウェア資源をむだなく使い回せる 
ような並びになるはずである. 
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3 VLIW の実際 （ 1 ) 一 Itanium 

VLIW の実現性を疑問視する声が 多い のは事実であ 
るが，最近では珍しく成功した（と現時点では記して 
おこう）二つの MPU が ある . Intel の Itanium (第一 弾 
のコードネームは Merced) と Transmeta の Crusoe で 
ある.どちらも x86 命令を実行する方式として VLIW 
アーキテクチャを 採用して いる 点が 興味深い . これら 
の特徴を見ていこう. 

VLIW プロセッサを 商品化して いるメーカは 実際に 
は，結構ある.たとえば，富士通の FR-V は白社のサ 
イトで大々的に宣伝している.しかし，これらが汎用 
MPU として普及しているという話は聞かない.所詮 
は，組み込み制御用途の DSP といった感覚なのだ 
ろぅ. 

また， VLIW は，最近流行のリコンフィギュアラブ 
ルプロセッサ（これは多くの場合， DSP の代用である） 
の制御用プロセッサとして利用されることが多い.こ 
れは， VLIW が DSP の制御にとって相性がいいとい 
う理由もあると思われる. 

• 開発の背景 

VLIW は HP の技術によって支えられているといっ 
ても過言ではない.事実， HP は PA-RSIC の最新機種 
として， PA- 9000 という VLIW マシンを 1998 年に発 
売すると発表していた.しかし， 1994 年， HP は Intel 
と共同で 64 ビット MPU である IA-64 の開発を行うこ 
とを表明した.それと同時に PA- 9000 の開発を凍結し 
た. IA-64 は EPIC (Explicitly Parallel Instruction 
Computing) と呼ばれる VLIW ライクな命令を主体と 
する新しい概念を採用している. EPIC は命令セット 
アーキテクチャと同時に高性能化などのインプリメン 
テーシヨンを同時に定義する.といっているが，単な 
るマーケティング戦略にすぎない. EPIC も明らかに 
VLIW である. 

x86 と IA-64 の主な特徴の比較を 表 1に示す. 64 ビ 
ット MPU としては後発になるため，新しい技術を提 
供することが必要であり，それにより明るい未来が約 
束されているように思えた.しかし共同開発とは名ば 
かりで，実質的な IA-64 の開発は Intel によって行わ 
れた.当初の計画とは異なり， PA-RISC との互換性 
はなくなり， IA-64 と x86 のみのサボートになった（妥 
協案としてダイナミック トランス レー シヨン というエ 
ミュレー シヨン 技術が提案されてはいるが）時点で， 
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表 1 x 86 と IA -64 の比較 



x 86 

IA -64 

命令形式 

複雑で可変長の命令を 

1度に1命令処理する 

単純で固定長の命令三 
つを一つのグループに 
パ'ンドルして同時に処 
理する 

実行順序 

命令列の並び替えと最 
適化を実行時に行う 

命令列の並び替えと最 
適化をコンパイル時に 
行う 

分岐予測 

予測した分岐先を投機 
的に実行する 

分岐先と分岐元の両方 
を投機的に実行し，不 
要な側を無視する 

メモリ 

参照 

必要になったときにデー 
夕をメモリからロード 
する.キャッシュを最 
初に参照 

必要になる前に投機的 
にデータを ロー ドする. 
同じくキヤッシュを最 
初に参照 


HP は共同開発から手を引いた感がある. 

実際， HP は1999年6月から PA - RISC の最新機種で 
ある PA - 8500の出荷を開始した.同時に， PA - 8600/ 
8700/8800/8900というロードマップを発表して P A - 
RISC の存続をアピールした. PA - 8500を使用したサー 
バである HP 9000 は IA -64 にアップグレード可能とはな 
っているが，それは IA -64 の最初の Itanium ( Merced ) 
ではなく，次機種の McKinley (コードネーム）以降で 
あるとしている. HP のいいぶんは 「 Itanium の性能 
は期待外れ」ということらしい.性能問題が尾を弓 j い 
たのか， Itanium の開発は遅れに遅れ，2000年に発売 
に漕ぎ着けたものの，その年の7月にはさらなる改版 
が必要として，2001年の前半まで発売を延期した. 
発表された動作周波数も 800 MHz と予想をはるかに下 
回っている.その時点での HP の公式見解は「いまだ 
に IA -64 に期待する」というものであるが ， Itanium 
の失態が繰り返されるようでは HP の離脱もありえ 
る.また， SGI なども， Itanium 搭載の Linux マシンを 
発表していたが,いまひとつ盛り上がりに欠けていた. 

2002年に Itanium 2 ( McKinley ) がリリースされても 
その低調さに変わりはなかった.しかし， HP は唯一， 
そのプロモーシヨンに積極的だった. Itanium 2 になっ 
て，やっと望みどおりの性能が達成されたということ 
なのだろう.それまでの動向を見ていると， Itanium 2 
の成功は HP の頑張りにかかっていたといっても過言 
ではない. 

しかし，2003年6月に2代目 Itanium 2( Madison ) が 
発表されると事情が少し変わってきた. Madison は， 
L 3 キャッシュの容量が増えたことにより ， McKinley 
よりも30〜50%の性能向上となり，やっと競合他社 


を明確に凌駕する性能を達成できた.これをきっかけ 
に， HP 以外での採用も増加し， Itanium の快進撃が 
始まる兆しがみえてきた. 

Itanium は IA -32 の命令セットを直接実行する専用 
のユニッ トを 持つ. Itanium 2 の ホワイト ペーパーに 
よれば，サポートする命令は Katmai(Pentium IE ) レ 
ベルであり，性能は 300 MHz の PentiumPro と同程度 
となっている.実際に使用した ユーザーの 感想による 
と， Pentium の 75 MHz 程度の体感性能で想像を絶す 
る遅さともいわれている.これでは，当初の予定と異 
なり， IA -32 の性能は期待できそうにもない.バイナ 
リ変換を行わなくても一応動作するという宣伝文句以 
上の意味はないと思われる.当の Intel 自身ですらそ 
の使用を推奨していない. 

2003年4月24日， Intel が Itanium 用の x 86( IA -32) 
エミュレータを開発中であることが明らかになった. 
これは， CNET のスクープであり，このエミュ レー 
夕は 「 IA -32 Execution Layer ( IA 32- EL ) 」（コード 
ネームは btrans ) と呼ばれる， OS と連係して IA -32 プ 
ロセッサをエミュレートするソフトウェアである.具 
体的には， Xeon ( IA -32) 命令から Itanium 2 命令への 
トランスレータである.この IA 32- EL を使えば， 1.5 
GHz 動作の Itanium 2 は 1.5 GHz 動作の Xeon MP とほ 
ぼ同じ速度で32ビットコードを稼働させられると 

いう. 

この IA 32- EL は2004年下半期にリリース予定の 
Windows Server 2003の Service Pack 1に組み込まれ 
る予定だという.しかし，最近の報道では， 1.5 GHz 
動作の Itanium 2 で 1.4 GHz 動作の Xeon 相当とその性 
能が下がっているのが気になる. 

この噂を打ち消すように，2004年1月23日に日本 
で開催された Intel の事業展開の説明会では， IA 32- 
EL の 性能は ムーアの 法則にしたがって進化し，将来 
的には Itanium のハードウェア エミュ レー シヨ ン機能 
は削除する方向との説明がされた. 2008年には IA 32- 
EL が IA -32 ( Pentium 4) の性能を凌駕すると予想する 
アナリストもいる. 

AMD の Opteron は64ビットコードだけでなく 32 
ビットコードも効率的に実行できるので，これと比べ 
ると Itanium が見劣りするのは明らかであり，その対 
策と思われる. IA 32- EL により，32ビットのソフト 
ウェア資産を Itanium にも流用できるようになり，そ 
れが理由で Itanium 採用に消極的だった顧客に対して 
優位性をアピールすることができる. 
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Itanium の命令 
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• 命令フォーマット 

Itanium の命令フォーマットを 図12 に示す. 41ビ 
ットの3オペランド命令が3個と，5ビットのテンプ 
レートを組み合わせた128ビット長の命令である.こ 
れはバンドル（抱き合わせ）と呼ばれる. 

各スロットに格納される命令のプレディケートとは 
「述語」という意味で，命令の実行条件を示す.分岐 
属性とも訳される. Itanium は 64 本の 1 ビット長のプ 
レディケートレジスタを備え，各レジスタは「真」ま 
たは「偽」の情報を保持する.命令中のプレディケー 
卜領域はプレディケートレジスタの番号を表し，その 
レジスタが「真」ならば命令を実行する.これは 
RISC で採用されている条件 MOVE の発展形で，条件 
分岐での場合分けを（性能が低下する）分岐命令を使わ 
ずに表現できる.また，各命令は 3 オペランド命令で 
ある. 

レジスタは 128 本用意されているが，常時使用でき 
るレジスタは R0 〜 R31 の 32 本のみである. R32 〜 
R127 は alloc という命令でスタックフレーム領域と 
して定義すると使用可能になる.サブルーチンコール 
先で確保されたスタックフレームはサブルーチンから 
リターンすると自動的に消滅する.このようなレジス 
夕構造を IA-64 ではスタックレジスタと呼んでいる. 

バン ドルに含まれる テンプレー トは 三つのスロット 
の命令の種類を指定する領域である.これは内蔵する 
演算器と密接に関連し，1(整数)， M (メモリ）， F (浮 
動小数点）， B (分岐）の中から指定できる.テンプ 
レー トは同時に並列実行できる命令の区切りも指定す 
る.ハードウエア資源（演算器の数)が十分にあれば， 
基本的に，すべての命令を並列実行できるが，実装す 
る演算器の数に依存して区切りが決定される.これは 
5 ビットの領域なので 32 種類の組み合わせを指定でき 
るのだが， Itanium では 図 13 に示す 24 種類が定義さ 
れている. 

なお，バンドルは 1 対 1 で PA-RISC の命令に変換可 
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■並列実行できる命令の区切り 

図13バンドルの組み合わせ 


能というが，実際はどうなのだろう. 

• 内部構造 

図14 に Itanium のブロック図を示す.演算器の構 
成は，分岐ユニット3個，整数/メモリユニット4個， 
浮動小数点ユニット2個である.二つの バンドルが 同 
時に処理されるので6命令の同時発行が可能である. 
また， Ll ， L 2 キャッシュを内蔵し，外部には L 3 キャ 
ッシュが接続される. 

Itanium がもっとも効率良く命令の並列実行を行う 
ためには，コンパイラによるヒント（制御情報）を命令 
に反映させることが肝要である. VLIW ではコンパイ 
ラによるいろいろな並列化技術が研究されているが， 
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図 14 Itanium のブロック図 
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図15 Itanium のハードウエアとコンバイラの技術 


それらをいかに適用できるかで MPU の性能が決まる 
といっても過言ではない. 図15 に各ハードウェアブ 
ロックに対してどのようなコンパイラ技術が必要にな 
るのか，その一例を示す. 


• パイプライン 

図 16( a ) に Itanium のパイプラインを示す.10ス 
テージからなるインオーダなパイプラインである•パ 
イプラインは，フロントエンド，命令供給，オペラン 
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第 7 章マイクロプ□グラミングと VLiW 
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( a ) Itanium のパイブライン （10 ステージ，インオーダ) 
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( b ) Itanium2 のパイプライン （8 ステージ，インオーダ) 


図16 Itanium と Itanium 2 のパイプライン 



図17 Itanium のフロントエンド 


図18 

Itanium の命令供給段階 
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ド供給，実行の段階に大別される. 

フロントエンド（図 17) の段階では，1サイクルに最 
大6命令 （2 バンドル）をプリフェッチまたはフェッチ 
し，8エントリのデカップリングバッファ（命令キ 
ユー）に格納する.分岐予測もここで行う. 

命令供給の段階（図 18) では，最大6命令を九つの 
ポートに振り分ける.これは Dispersal Network (拡 
散ネットワークとでも訳すのか）によって行われる. 
将来的には各スロットをすべてのポートに振り分け可 


能になる予定であるが， Itanium ではスロットとポー 
卜の対応に制限がある.レジスタのリネームやスタッ 
ク操作（動的なレジスタ割り当て = Spill / Fill ) もここで 
行ぅ. 

オペランド供給の段階（図19の左側）では，レジス 
タリードとバイパス（フォワーディング）処理を行う. 
その他，オペランドの依存性のチヱック，分岐属性の 
依存性チエックを行う.実行の段階（図19の右側）で 
は，四つの1サイクルレイテンシの ALU , 二つの 
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図20 

Itanium の例外検出 


REG 


ロード/ストアユニットで命令を実行する.また，投 
機ロードの制御，分岐属性の処理，例外検出，リタイ 
ア処理(図 20) を行う. 

• Itanium 2 での性能改善 

Itanium 2 ( McKinley ) では Itanium に比べて MHz 当 
たりの整数性能 ( SPECint 200 0) が25%以上向上した. 
これは当初の予定である Itanium の 1.5 〜2倍の性能を 
ほぼ実現している.これらは，動作クロックの高速化， 
バスの高速化，マイクロアーキテクチャの改良， 3 M 
バイトの L 3 キャッシュの内蔵 （ Merced では最大 4 M 
バイトまでを外付け可能）による恩恵である. 

Itanium 2 では，1クロックに発行できる二つのバン 
ドルの組み合わせを増やすことに重点が置かれてい 
る.そのために演算器の数を増やした.二つのバンド 
ルは，最大4個のメモリ演算 （ M )， 最大6個の ALU 
演算 ( M / I )， 最大4個の整数演算( I )，最大6個の分岐 
( B ), 最大2個の浮動小数点演算 （ F ) を含むことがで 
きる. 

しかし， Itanium では演算器の数が少ないため，バ 
ンドルの組み合わせが制限されていた. Itanium 2 で 
はほとんどすベての組み合わせを可能にしている•こ 
のため整数ュニット （ ALU を含む）は4個から6個に， 


ロー ド/スト アユニッ トが2個から4個， マルチ メディ 
アユニッ トが4個から6個に増加された.浮動小数点 
ユニッ トは4個， IA -32 ユニッ トは1個と従来どおり 
である.逆に浮動小数点の SIMD ユニッ トは4個から 
2個に減少された.これは， SIMD 命令はサーバ機で 
の必要性が少ないためであろう- 

その結果， Itanium 2 で同時に発行可能なバン 
ドルの組み合わせは表2のようになった.つまり， 
Itanium 2 では組み合わせ可能な組み合わせの75%を 
サポートする. Itanium では28%だった. 

図 16( b ) に Itanium 2 のパイプラインを示す . Itanium 
と比べて， FET ( FETCH ) ステージと WLD(WORD 
LINE DECODE ) ステージが削除され， Itanium の 10 
ステージから 8 ステージに 減少して いる.その 主な目 
的は 分岐命令の高速化（分岐予測ミス時のペナ ルティ 
を減少させる）にある. 

FET ステージは命令キャッシュを参照するステー 
ジであるが，キャッシュ回路が最適化され， IPG (命 
令ボインタの生成）と FET が同時に実行されるように 
なった. WLD (レジスタファイルのワード線を決定) 
はレジスタフアイルの設計を見直すことで不要にな 
った. 
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図 19 Itanium のオペランド供給と 
実行段階 
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発行可能な第2命令組 
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表 1 x 86 と IA -64 の比較 


1) 第1命令組では分岐命令を発行できない 

2) ◎は Itanium 2 のみで発行可能，〇は Itanium と Itanium 2 で発行可能 


Itanium 2 では分岐命令の処理自体も高速化されて 
いる.命令キャッシュの各ライン内に，命令 (2 個の 
バンドル）だけでなく，分岐予測情報と分岐先アドレ 
スをも格納することで，ペナルテイなしで次の命令フ 
ェッチ先を生成できる.この機構は「〇 -cycle branch 
re - steerJ と呼ばれている. 

加えて，分岐予測機構も次のように強化されている. 

(1) 分岐履歴 テーブル 

L 1 キャッシュとデコーダの 2 レベルで行われ，第 2 
レベルでは 4 ビット x 12 K エントリのテーブルをもつ. 

(2) パターン履歴テーブル： 16 K 個の2ビットカウ 
ンタ 

(3) リターンスタックバッファ： 8エントリ 

(4) 間接ターゲット予測： 8 個の分岐レジスタを使用 

(5) 完全なループ予測：ループの終了を計算して予測 
さらに，命令のプリフェッチ機能も強化されている. 

これは，基本的には，コンパイラによって指定される. 

(1) デマンドプリフェッチ 

次の命令を L 2 キャッシュにヒットする限り， L 1 キ 
ャッシュに プリ フェッ チする. 

(2) ストリーミングプリフェッチ 

コンパイラはすべての分岐命令に，プリフェッチを 
行うためのヒント情報を付加することができる.最大 
四つのプリフェッチ要求を処理することができ，それ 
は停止条件が成立するまで継続される. 

(3) ヒントプリフェッチ 

コンパイラが使用できる2種類の専用命令がある. 
分岐予測 （ brp ) と分岐レジスタへの転送 ( movbr ) であ 
る.これらの命令は16個のバンドルをプリフェッチ 
できる. 

図21に Itanium 2 の各パイプラインステージにおけ 


るデータ処理のようすを示す. 

• け anium 路線の進化 

種々の悪評にもめげず， Itanium 路線は堅実な進化 
を遂げている.そして， Intel は2003年6月30日の 
Madison 発表で自信を得たのか，かなり強気なロード 
マップを発表している （図 22). コンピュータメーカ 
にとって嬉しいのは将来に渡るロードマップがしっか 
りしていることであろう. 

► McKinley 

McKinley の詳細が示されたのは2001年8月の IDF 
(Intel Developer Forum ) である.そのときの説明に 
よると ， McKinley は Itanium ( Merced ) の 1.5 〜2倍の 
性能を実現するという.具体的には，動作クロックの 
高速化，バスの高速化，マイクロアーキテクチャの改 
良， 3 M バイトの L 3 キャッシュの搭載である. 

Itanium のバスは64ビット幅で 266 MHz 動作である 
が， McKinley のバスは128ビット幅で 400 MHz 動作 
である.つまり，バスのバンド幅は3倍になる . IDF 
では McKinley の動作周波数は明らかにされなかっ 
た.結局は， Itanium の800 MHz を少し超えた900 
MHz で登場し，最終的には 1 GHz に達した. 

McKinley の L 3 キャッシュサイズは 1.5 〜 3 M バイト 
で， Itanium の2〜 4 M バイトよりも小さい.ただし， 
Itanium の L 3 キャッシュは外付けである . McKinley 
では L 3 キャッシュを1チップに統合するため，データ 
の高速転送が可能になる•結果として性能は向上する. 

2002年4月25日， Intel は McKinley の正式名を 
「 Itanium 2」 に決定したと発表した.これは ， Itanium 
をブランド化し，ハイエンドエンタープライズコンビ 
ューティングにおける新たな能力を示す象徴にしたい 
という希望のあらわれである. 
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図21 Itanium 2 の各パイプラインステージにおけるデータ処理のようす 


結果として， McKinley はそれなりの評価を得たが， 
Itanium 2 が爆発的に採用されるようになるのは次機 
種の Madison からである. 

► Madison 

この Madison も2001年8月の IDF で紹介されてい 
る. Madison は McKinley の1年後に登場した.これ 


は，最大 6 M バイトの L 2 キャッシュを搭載し，動作 
周波数もさらに向上されていた.結局は 1.3 GHz 〜 1.5 
GHz で登場した. 

2002年6月19日， Intel は， Madison が複数の OS 上 
で問題なく動作したと公表した.同チップは2003年 
に量産が始まる予定とし， Itanium は向こう10年間使 
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第 7 章マイク□プログラミングと VLIW 
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図 22 Itanium のロー ドマップ (2003 年 11 月時点） 


われるエンタープライズアーキテクチャになるだろ 
うと強気である（そういえば， Pentium 4 に採用された 
NetBurst アーキテクチャも10年の寿命を見込んで 
いる）. 

それと同時に， Intel の社長である Paul 〇 tellini 氏は， 
AMD と同様な X 86-64 を実行可能な MPU である 
Yamhill の存在を否定した.情報筋は， Itanium の売 
り上げが低迷すれば Yamhill の登場になると予定して 
いる. Intel は32ビット MPU である Pentium と Xeon 
を拡張して64ビットコードを処理するための特許を 
保有しているらしい. 

Madison が Itanium 2 のブランド名を継承すること 
は，2002年10月の IDF において正式に発表された. 
これは， Madison が McKinley とそのまま差し替えら 
れるため，同じ名称になったという.まあ ， Madison 
は McKinley の L 2 キャッシユの容量を増やして動作周 
波数を上げただけなので，当然といえば当然である. 
Madison の性能は ， SAP APO というベンチマークで， 
McKinley の28%増ということである. 

ISSCC 2003 で， Intel は Madison の概要を発表した. 
最大の特徴は，24セットアソシアテイブ構成の L 3 キ 
ャッシユを 6 M バイト内蔵することである.チップサ 
イズは 374 mm 2 (約 19 mm 角）ということなので当初の 
予定よりもかなり大きい.トランジスタ数は Itenium 2 
の約2倍の4億1000万になるという.動作周波数は 
1.5 GHz で，消費電力は 130 W である. 

2003年6月30日に Madison は正式に発表された. 
ほぼ事前のリークどおりの仕様である. 


L 3 キャッシュの容量が増えたことにより ， Madison 
は， McKinley よりも30〜50%の性能向上となる. 

2003年11月時点では，高性能サーバなら HP の 
Itainum 2 ( Madison ) 搭載機という常識ができつつある. 
たとえば， HP の Superdome は TPC - C ベンチマーク 
で初めて100万という値を突破した. HP と Intel の悲 
願がやっと達成され始めたという感じだろうか.ちな 
みに， Itanium 2 以外では， IBM の Power 4 を搭載した 
サーバが TPC - C ベンチマークの上位を占めている. 

► Madison 9 M 

2003年1月， Intel は Itanium の口ードマップに関し 
て発表（リーク）を行った.そこで，これまでロード 
マップになかった 「Madison 9 M 」 が加わった.これ 
は Madison の 9 M バイト L 3 キャッシュ搭載版である. 
Montecito をデュ アルコア 化することによる日程遅れ 
を補う中継的なプロセッサである. 

► Deerfield 

Deerfield も2001年8月の IDF で初めて紹介された. 
Deerfield の基本的なアーキテクチャは Madison や 
McKinley と同じだが，消費電力と発熱量が抑えられ 
ているという，いわば廉価版である.現行の Itanium 
の消費電力が 120 W であるのに対し， Deerfield では 
70〜 80 W になるらしい.これは Pentium 4 と同程度で 
ある. 

当初， Madison の L 3 キャッシュが 3 M バイトで 1.3 
GHz 版が Deerfield との噂もあったが，2003年6月30 
日の Madison の発表では別物であることが判明した. 
同時に発表されたロー ドマップでは DP のラインに 
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は 1 GHz 動作の低電圧版と 1.4 GHz 動作の通常電圧版 
(コードネーム不明）があり，どちらも 1.5 M バイトの 
L 3 キャッシュを持つ. 1 GHz 動作の低電圧版が Deer 
field である. 1.4 GHz 動作版はこの時点で新たにロー 
ドマップに付け加わった製品である. 

2003年9月8日， Deerfield が正式発表された • 1 
GHz 動作で 1.5 M バイトの L 3 キャッシュを搭載する 
Low Voltage Itanium 2 がそれである. 

従来の Itanium 2 の最大電力が 130 W だったのに対 
し， Deerfield の消費電力は 62 W と半分以下であり， 
処理能力は McKinley と同等であるという. 

また同時に， 1.4 GHz ® 力作で 1.5 M バイトの L 3 キヤ 
ッシュを搭載する省機能版が発表された.これらは事 
前の予想どおりである.コスト，設置場所，消費電力 
量を重要視し，クラスタ結合して高性能コンピュータ 
システムを構築できるようになっている. 1.4 GHz 版 
の価格は1172ドルである. 

► Montecito 

2002年1月末に，業界の噂として Montecito の存在 


が明らかになった. 

Montecito は2004年から2006年に Madison の後継 
として登場し，2001年に Compaq から獲得した Alpha 
の技術が適用されるという.その時点では，どのよう 
な技術かは不明だったが，噂では Hyper-Threading 
をサポートするという予測が大勢であった.しかし， 
当の Intel からの見解はなかった. 

2003年1月の Itanium のロー ドマップでは，当初シ 
ングルコアであった Montecito をキャンセルし，新た 
に，デュアルコア版の Montecito を当初の計画より早 
く，2005年にリリースするという.本来なら，マル 
チコアは2007年の予定だった. 

なお， Madison , Madison 9 M , Deerfield は130 nm 
プロセスで製造されるが， Montecito は 90 nm プロセ 
スで製造される.また，これらのプロセッサはすべて 
Itanium 2 のブランド名になり，ピン互換になるらしい. 

Montecito で特徴的なことは，各 MPU コアがそれ 
ぞれ独立して 18 M バイト以上の L 3 キャッシュを内蔵 
するという点である. 


Itanium に関する個人的感想 


Itanium のパイプラインは単純でインオーダな10ステ 
ージ構成である.その性能のキーポイントは二つのバン 
ドル (6 命令)をいかに並列実行できるかにかかっている. 
しかし，それはコンパイラでのスケジューリングに大き 
く左右される.そもそも，通常のアプリケーションプロ 
グラムで六つの命令を並列に実行できるほど命令間の依 
存度の低い場合がありうるのだろうか•トレーススケジ 
ューリングやソフトウエアパイプライニングなどの技法 
でそれなりに並列度を上げることができたとしても，実 
際のところはどうだろうか.まあ，将来的に，コンパイ 
ラの技術が進歩すれば進歩するほど性能が上がる構成に 
なっていると考えれば，先見の明ということもできるの 
だが…. 

Intel は2003年に入ると Itanium の大々的なプロモー 
ションを行っている. Merced の開発ではいろいろと卜 
ラブルが絶えなかった Itanium も，順調に デベロ ッパや 
ハー ドウエア メーカの 関心を高めているようだ.しかし， 
命令レベルでの並列度を上げるために VLIW ( EPIC ) を 
採用したのに，結局は （ Montecito 以降）デュアルコアで 
スレッドレベルでの並列度向上に逃げた方針変更 （？） は 
EPIC の失敗を認めるものであるという見方もある. 

VLIW とは MPU のハードウエア資源を常に動作さ 
せるようにコンパイラが最適化を行う技術であるから， 
ハードウェア資源の空きを自動検出して自動的に処理を 


割り当てるマルチスレッドやハードウ エア 資源を浪費す 
るマルチ コアの 適用は， VLIW の利点を否定することで 
ある. 

その意味で Itanium のアーキテクチャ自体が迷走して 
いるといえなくもない. Intel の総力をもってすれば誤 
った選択も容易に軌道修正がきくということか.何にせ 
よ，勝てば官軍である. 

しかし，とりあえずは Itaium 2( McKinley ) でマイクロ 
アーキテクチャを見直し， L 3 キャッシュをオンダイに 
内蔵した.これによって， Itanium の 1.5 〜2倍の性能に 
なった.さらに次機種の Madison では，動作周波数を 
向上させるとともに L 3 キャッシュの容量を 6 M バイト 
に倍増したことで，性能を McKinley の 1.3 〜 1.5 倍に向 
上させた.これにより， Itanium 2 は競合他社の性能を 
凌駕することになり，やっと将来への道筋が見えてきた. 

しかし ， American Technology Research という調査 
会社のレポートによると， Intel は2004年の中旬に 
Yamhill ( x 86 の64ビット拡張）を実装するチップ 
( Prescott ?) を発表し，2005年に量産に入るという.も 
し，これが本当なら Itanium の64ビット EWS としての 
価値は暴落し，単なる科学技術計算器になり果ててしま 
う. 2003年12月時点で Itanium の出荷台数は後発の64 
ビット版 x 86 である Opteron に抜かれたという風評もあ 
り， Itanium の先行きが案じられる. 
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► Chivano 

Chivano も, 2002年 1 月末に業界の噂として , Mon 
tecito と一緒にその存在をささやかれ始めたものだ. 

Chivano の登場時期は Montecito と同時期であり， 
こちらは MPU の CMP (Chip Multi - Processor ) になる 
という噂だった. 

2002年10月の IDF において， Intel は2005年までに 
デュアルコア （ CMP ) の Itanium を開発する計画があ 
ることを公表した. Chivano の噂は本当だったわけだ. 
Hyper - Threading に関しての言及はなかった.これら 
の Itanium は 90 nm または 65 nm の製造プロセスで実 
現される予定である.これは，複数 CPU 構成が常識 
であるサーバ機において， 1 MPU 当たりの価格を下げ 
ることに貢献する. 

Chivano は Madison 正式発表時のロードマップでは 
消滅した.これは，シングル コアの Montecito 開発を 
キャンセルしたことにより， Chivano として開発して 
いたプロセッサを新たに Montecito と命名し直したと 
いうことであろう. 

► Tukwila(Tanglewood) 

ZDNet は2003年8月， Intel から近い筋の話として， 
2003年9月の IDF でコードネーム 「 Tanglewood 」 と 
呼ばれる新しいハイエンド版 Itanium の計画が発表さ 
れる見込みと報道した. Tanglewood では一つのシリ 
コン上に，最大16個のプロセッサが搭載される.そ 
れでいて，消費電力は現行の Itanium と同じだという. 
出荷時期は未定だが，早ければ2006年になるという. 

しかし，2003年9月の IDF では， Tanglewood は2 
MPU よりもずっと多いマルチコアになると述べられ 
ただけだった.ただ， Tanglewood は DEC 出身の 
Alpha 設計チームが開発しており，性能は少なくとも 
現在の Madison の7倍ということなので4〜 8 MPU と 
いうのが妥当な線ではなかろうか. 

なお，2003年12月， Intel は Tanglewood Music 
Center との商標紛争を避ける目的で， Tanglewood と 
いうコードネームを Tukwila に変更した. 

• 性能比較 

さて， Itanium は最初 733 MHz ， その後 800 MHz 品 
がリリースされたが，それを使用した EWS の性能は 
他社製の EWS と比べてどの程度違うのだろうか.図 
23(a) に，2001年末時点での EWS の性能を SPEC 
CPU 2000 ベンチマークで 比較する. Itanium は，浮動 
小数点性能は他社並みであるが，整数性能は他社の半 
分ほどである.これでは， McKinley で2倍の性能に 
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なっても，その頃には他社製品も性能向上している 
はずなので，とても追いつかない.これを見る限り， 
EPIC ( VLIW アプローチ）が成功しているとはいいが 
たい. 

2002年5月29日，ドイツでの IDF で Itanium 2 の性 
能が公式発表された. Itanium に比べて 1.5 〜2倍の性 
能というのは当初の予定通りである.発表では 8 MPU 
構成の UltraSrapcID を強く意識し，各種ベンチマー 
クで 1.5 〜4倍の性能を発揮するという. SPEC 2000 で 
は， SPECint 2000が700以上 （ base ), SPECfp 2000 
が1350 ( base ) と発表された.これが登録されると， 
SPECint では Power 4 の804に次ぐ第2位， SPECfp で 
は Power 4 の1202を凌ぐ第1位となる (2002 年5月時 
点）. IDF では「優れた性能」と自画自賛だったが， 
SPECint が 2 GHz の Pentium 4 と同程度の性能という 
ことは意図的に （？） 伏せられている. 

2002年7月8日， Intel は Itanium 2 の出荷を開始し 
たと発表した.そのとき，その性能も改めて公式発表 
の運びとなった. HP の rx 5670( lGHz ) の性能だが， 
SPECint 2000が810 ( base ) ， SPECfp 2000 が1356 ( base ) 
となって，5月の発表よりも若干性能が向上している. 
この値が登録されると，64ビットサーバでは，整数 
性能，浮動小数点性能ともに， Power 4 を抜いて第1 
位となる.この意味で，整数性能の向上は多少意図的 
な部分を感じるが，コンパイラの改良によるものと理 
解しておこう.ただ， Itanium 2 搭載製品は共同開発 
の HP のもの以外は，日本のメーカ （ NEC , 日立製作 
所）によるものだけで，富士通と IBM は年末を目処に 
という発表に留まり，決して好調とはいえない.特に， 
Intel 製品ではトップシェアの DELL が模様ながめな 
のが象徴的である. 

米国の調査会社である Gartner は，2002年8月に， 
64ビットサーバ市場において Intel の Itanium チップ 
は徐々に勢力（売り上げ）を伸ばしていく見通しだが， 
2007年でも SUN の UltraSPARC や IBM の Power 搭載 
機を追い越せないという予測を発表した.その理由 
は，サーバ市場の低迷にも原因があるという. IT 関 
連予算の締め付けが厳しく，顧客が新しい大型マシン 
の導入に消極的になっているという . Microprocessor 
Report の主任編集者は， Itanium シリーズの出荷量が 
大きく増加するのは，2003年に Madison や Deerfield が 
登場してからになると予測する.以前は ， McKinley 
( Itanium 2) の登場で Itanium シリーズの売り上げが増 
大すると予測されていたので，先送りされた格好で 
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ある. 

2003年 6 月 30 日に発表された Madison のベンチ 
マーク性能では， SPECint 2000が1322 ( base)，SPEC 
fp 2000が2119 ( base ) と発表されており，これが登録 
されれば発表時点での最高性能となる.整数性能は 
3.06 GHz の Pentium 4 と同程度であるが，浮動小数点 
性能はまさに驚異的である.それまで，トップだった 
Itanium 2 ( McKinley ) の性能を6割以上も向上したこ 
とになる. Intel が特に強調しているのはデータべ一 
ス性能 ( TPC - C ) の高さである. TpmC * の値は21065 
とし，典型的な RISC (Best Published RISC : Ultra 
SPARC か？）の 2 倍以上であることを示している.そ 
のほかにも多くのベンチマーク性能を公表しており， 
認知度の高いベンチマークテストで高評価を受ける各 


種プロセッサに十分対抗できると強気である.図 23 
(b) に Itanium シリーズでの SPEC CPU 2000の比較を 
示す. 

最初は低性能でどうなるかと思われた Itanium も， 
Merced , McKinley を経て3代目の Madison でかなり 
良い性能になった. Intel は，今回10社以上のサーバ 
メーカ の採用を受け，2003年末までには Itanium 2 を 
搭載したシステムが50種類以上出荷される見通しで 
あることを発表した. 

•余談 

2002年10月30日，米連邦地方裁判所は Intel に対し 
Itanium の製造，販売を差し止める判決を下した.し 
かし同時に差し止め命令の執行は30日間猶予され， 
Intel には上訴の選択肢が与えられた. 
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表3 

従来のハードウエアをソフトウエア 
とハードウェアの組で実現 


従来の x 86 ハードウエア 

Crusoe 

VLIW ハードウエァ 

コードモ^ー フイング 
ソフトウェア 

可変長命令のデコード 

単純なデコード 

x 86 のデコード 

スーパースカラでの組み合わせ 


命令の組み合わせ 

スーパースカラでの命令発行 


命令スケジユーリング 

バイパス回路 


バイパススケジユーリング 

レジスタリネーム 


レジスタリネーム 

複雑なアドレシングモード 


アドレスモード合成 

アウトオブオーダ実行 

インオーダ実行 


投機 実行 


投機 実行 

演算機能 

演算機能 


レジスタファイル 

レジスタファイル 


マイクロコード ROM 


ソフトウェアライブラリ 

キャッシュ 

キャッシュ 


FP スタック回路 


FP スタック 



命令コード最適化 


Intel を訴えたのは Intergraph で，同社は1997年頃 
から Intel と特許合戦を繰り広げている. 2002年の4 
月には Pentium シリーズに関係する特許を Intel に認 
めさせ，3億ドルを支払わせている. 

今回の特許訴訟は Itanium が Intergraph の持つ PIC 
(Parallel Instruction Computing ) の特許に抵触すると 
いうものだ.具体的には， （1) コンパイラが並列に実 
行可能な命令グループを見つけて，命令コード中に付 
加情報として埋め込む技術 ( Itanium の命令バンドル 
中の template に対応）， （2) VLIW バンドル中の命令 
を機能ユニットまで届ける連想クロスバー (Itanium 
の Dispersal Network に対応）が問題らしい. 

連邦地方裁判所は先に， Intel による侵害が訴えら 
れていた Intergraph 所有の2件の特許が有効であるこ 
とを認定していたが，今回の判決の中でこの点を再度 
確認し，具体的に九つの侵害の実例を指摘した•さら 
に，判決とともに，差し止め命令の執行は11月29日 
まで猶予するとした. Intel は，特許権侵害を認めた 
この判決を不服として上訴する意向を明らかにしてい 
る.結局，2004年2月11日， Intel の全面勝訴との控 
訴審判決が下った. 

また2004年1月26日付けの CNET では， HP が 
AMD の Opteron を搭載したサーバを投入する計画が 
あると報じた. Itanium 2 推進の第一人者だった HP が 
AMD のプロセッサを採用する意味は大きい.これに 
より Opteron は， IBM , SUN , HP と，サーバメーカ 
大手4社のうち3社と契約を取り付ける形になる（残り 
は Intel ). 


4 VLIW の実際 (2)— Crusoe 

• 開発背景 

Transmeta は1995年に David R . Ditzel らが創立し 
た会社である. Linux の作者として有名な Linus B . 
Torvalds を雇っていたことで有名である.永らく秘 
密裏に開発を進めてきたが，1999年の半ば頃から， L . 
丁 orvalds が開発にかかわる MPU が密かに開発中で 
あるという噂が流れていた（実際には L . Torvalds は 
Crusoe の開発には無関係）.その MPU は今までにな 
く画期的なものという触れ込みだったので業界の注目 
を集めていた. 

そして，2000年1月，ついに Transmeta から x 86 互 
換 MPU である Crusoe の発表があった.従来 ， Intel 
や AMD は， x 86 アーキテクチャの命令を高速に実行 
するために， x 86 の命令を RISC ライクな命令に変換 
し，それをスーパースカラで並列実行するという方式 
を採用していた.この方式はパイプラインの複雑な制 
御が必要で，回路規模がかなり大きくなっている.当 
然ながら，消費電力も大きくなる.現在の Intel や 
AMD 製のモバイル向け MPU は，非常に優秀な省電 
力技術と電力消費を抑える優れた製造技術で作られて 
いるが，それでもモバイル向けとするには厳しいのが 
実情である.それに対し， Transmeta は VLIW を採 
用し，回路構成を単純にする試みを行ったのだ. 

表3に示すように， Crusoe では従来はすベてハー 
ドウエアで行っていた処理をハードウエアとソフトウ 
エアの組み合わせで実現する.資料によれば， 0.22 
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図24 Crusoe の命令フォーマット 


C: 命令コミット （1 ビット） 

SW： ソフトウェア用 （2 ビット） 
メモリ： □— ド/ストア 
ALU 操作は64本のレジスタによる 
3オペランド命令 
演算： ALU1/ 浮動小数点/マルチ 
メディア命令 
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" m プロセスで製造される TM 3120 のチップ面積が 
77 mm 2 , 0.18 " m プロセスで製造される TM 5400が73 
mm 2 である. 0.18 " m プロセスで製造される Pentium 
HI のチップ面積が106 mm 2 ， Pentium 4 のチップ面積 
が 217 mm 2 であることを考えると，その回路規模の小 
ささが実感できる. 

なお， VLIW としては128ビッ ト 長の命令を採用し， 
四つの操作を1命令に納める. VLIW の命令を x 86 命 
令に見せかける 手法は，コードモーフィングソフト ウ 
エア (Code Morphing Software : CMS ) と呼ばれるソ 
フトウヱアで， x 86 命令を VLIW のネイティブ命令へ 
コンパイルするというものである.変換された命令は， 
メモリ上に置かれた命令キャッシユ（まともな性能を 
得るためには 16 M バイト程度の容量が必要）に格納さ 
れ，高速に実行される. Crusoe の方式を Transmeta 
の言葉で表現すれば「プロセッサコアに組み込まれて 
いたマイクロ コー ドが外部 ソフ トウヱアとして実装さ 
れた」ということになる.つまり，マイクロ命令 
( VLIW に変換された x 86 命令）を直接実行するマイク 
ロプログラム 制御方式の MPU という考えである. 

気になる Crusoe の性能だが， Transmeta の発表に 
よると， 700 MHz 動作の TM 5400が 500 MHz 動作の 
Pentium m 相当ということで，それほど高性能ではな 
い.実際の製品のベンチマークでも， 600 MHz 動作の 
TM 5600 の整数性能が 500 MHz の Pentium IE 相当であ 
ることが実証されている.浮動小数点演算の性能は思 
つたよりも悪いようである.それでも，従来のモバイ 
ル向け x 86 互換チップと比べると， 「 LongRun 」 と呼 


ばれる電源管理機能によって 1 W 以下という超低消費 
電力を実現しているため，ノート PC での採用が相次 
いでいる.冷却用のファンが不要なことも採用の一因 
であろう. 

なお，世の中の性能向上のトレンドはマルチプロセ 
ッサやマルチスレッドであるが，この Crusoe はマル 
チスレッドに対しては懐疑的である.マルチスレッド 
は，パイプラインがスカスカであることを補う技術で 
あるが， VLIW で高い並列性を上げている Crusoe で 
は，パイプラインがフルに稼働しており，そのような 
姑息な技術は不要であるとしている. 

• 命令フォーマット 

Crusoe の VLIW エンジンは 二つの整数 ユニット， 
一つの 浮動小数点 ユニット，一つのメモリ （ロード/ス 
トア） ュニット，一つの 分岐 ュニットから 構成されて 
いる. Crusoe の VLIW 命令は モレ キュール（分子）と 
呼ばれ，最大4個のアトム（原子）と呼ばれる RISC に 
似た命令を含む64ビットまたは128ビッ ト 長の命令で 
ある（図 24). モレ キュール内のアトムは並列に実行 
され， モレ キュールの形式はアトムがどの機能 ユニッ 
卜に直接結び付くかを示している.これにより，デ 
コードとディスパッチのためのハードウエアを簡略化 
している. 

図 25 は，128ビットのモレキュールがアトムのスロ 
ットから機能ュニットに直接対応することを示してい 
る一例である.モレキュールはインオーダで実行され， 
アウトオブオーダ実行のための複雑なハードウエアは 
存在しない. 
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128ビットのモレキュール 

A 



• 内部構造 

図26 に Crusoe の CPU コア部のブロック図を示す. 
五つの並行実行可能な機能ユニットと内蔵キャッシュ 
からなる単純な構造をしている.他の MPU がハード 
ウエアで行っている投機実行に対応する命令列をソフ 
トウエアで生成するため，汎用レジスタとは別に，投 
機実行時に参照するシャドウレジスタを，整数用48 
本，浮動小数点用16本内蔵する.図示されていない 
が， Crusoe は1チップに LongRun 電力管理ユニットと 
ノースブリツジ （ PC 133 SDRAM , DDR - SDRAM , 
PCI バス）を集積している. 

• パイプライン 

基本的に， Crusoe のパイプラインは， FetchO , 
Fetchl , Decode , Register Read , Execute , Write 


back の 6 ステージからなるインオーダ構造をしてい 
る.一般的な x 86 プロセッサよりも少ないステージ数 
(レイテンシ）が特徴である.バイプラインは図 27 に 
示すように，各機能ユニットで若干異なる.パイプラ 
インの最後に投機実行の終わりを明示するコミットス 
テージが付加される場合もある. 

• コードモーフィングソフトウェアの動作 

コードモーフイングソフトウェア （ CMS ) は， x 86 命 
令から VLIW 命令（モレキュール）へのコード変換用 
のソフトウェアである.これは， Crusoe が直接実行 
可能な VLIW コードで記述されている.最初 ， CMS 
は R 0 M (1 M バイト程度の容量）に格納されており， 
MPU のブート時に DRAM に展開されてから実行され 
る. CMS が格納されるメモリ領域は，同じメモリに 
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図27 Crusoe のパイプライン 


主記憶 



図28 

コードモーフ イングの 
動作概念 


格納されている x 86 命令からは参照できない. 

Crusoe からは， x86 命令で記述された OS や BIOS , 
アプリケーションプログラムはすべて，（変換して実 
行すべき）自分自身のアプリケーションプログラムで 
見える.そして，決められたターゲットアドレス（た 
とえば， X86 のブートべクタである OxFFFFO 番地）か 
らコード変換を開始する.このとき，同じアドレスの 
x86 命令を重複して変換しないように，変換後のモレ 
キュール列を保存しておくための大容量 （16 M バイト 
程度）のメモリ領域を使用する.これをトレースキヤ 
ッシュと呼ぶ， 

図28に CMS の動作概念図を示す. CMS は，まず 


変換すべき x 86 命令の格納されたターゲットアドレス 
をトレースキャッシュの中に探す.もし，ターゲット 
アドレスがトレースキャッシュにヒットすれば，対応 
するモレキュール列にジャンプしてそこを実行する. 
もし，ターゲットアドレスがミスすれば， CMS は x 86 
の命令列に対し，デコード，アトムへの変換，最適化， 
スケジューリングを行い，新たなモレキュール列とし 
てトレースキ ャッ シュに格納し，そこへジャンプする. 

トレースキャッシュ内のモレキュール列の実行中に 
コード変換した最後の命令 ( CMS の変換処理の先頭， 
またはトレースキャッシュ内の他の領域へのジャンプ 
命令）に突き当たると，最初の処理に戻って，次の 
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第 7 章マイクロプログラミングと VLIW 


ターゲットアドレスがトレースキャッシュ内にあるか 
どうかチェックする（直接，トレースキャッシュのほ 
かの領域へジャンプする場合もある）. 

• コードモーフイングソフトウェアのコード変換例 

ここでは， CMS が x 86 コードを対応する Crusoe の 
VLIW コードに変換する例を示す.次の x 86 命令を考 
える. 

//スタックからデータを口ードし， % eax に加 
える 

A . addl % eax , (% esp ) 

//同様に. % ebx に加える 

B . addl % ebx , (% esp ) 

// メモリの値を % esi に□—ドする 

C . movl % esi , (% ebp ) 

// % ecx から 5 を引く 

D . subl % ecx , 5 

最初は，変換システムの前処理として， x 86 の命令 
をデコードし，アトムの並びに変換する.レジスタ 
% r 30 と ％ r 31 がメモリロー ド操作のテンポラリレジ 
スタとして使用され，次のように変換される. 

//スタックからテンポラリに□ード 
Id % r 30, [% esp ] 

// % eax に加算し.条件コードをセット 

add . c % eax , % eax , % r 30 

Id % r 31, [% esp ] 

add . c % ebx , % ebx , % r 31 

Id % esi , [% ebp ] 

sub.c % ecx , % ecx , 5 

次は，コンパイラでも良く知られている共通部分式 
の削除，分岐の削除，未実行コードの削除などの最適 
化が行われる.ハードウェアのみからなる x 86 の実行 
では不可能だが，ソフトウェアに基づいた変換システ 
ムなので，命令列からアトムを並び替えるだけではな 
く不要なアトムを削除することができる. 

この例では，最後のアトム以外では条件コードをセ 
ットする必要がなく，命令スケジューリングの柔軟性 
が増す.また，ロードアトムの 一つは 冗長である. 

結局，アトム列は，次のように，少ない命令に落ち 
着く. 

//スタックからのロードは1回のみ 
Id % r 30, [% esp ] 

aad % eax , % eax , % r 30 

// □ー ドした データを 再利用 
add % ebx , % ebx , % r 30 


Id % esi , [% ebp ] 

// ここの条件コードのみが有効 
sub.c % ecx , % ecx , 5 

最後は，スケジューラが残ったアトムを並び替え， 
レジスタ依存性がないアトムからなるモレキュールと 
してグループ化する.この処理は，アウトオブオーダ 
なプロセッサのディスパッチ回路で行われているのと 
似ている.結局，最初の命令は次の二つのモレキュー 
ルに変換できる. 

1 .Id % r 30 , [% esp ] ； sub.c % ecx , % ecx , 5 

2 .Id % esi / [% ebp ] ； add % eax , % eax 7 

% r 3 0 ； add % ebx , % ebx , % r 30 

この モレキュールは インオーダで実行されるが，元 
の x 86 コードをアウトオブオーダで実行するのと同じ 
効果があることに注目してほしい.また， モレキ 
ュール 自体は明示的な並列性が指定されているので， 
単純な VLIW エンジンで実行できる.それゆえ，高 
速で低消費電力なのである.ハードウェアに命令を並 
び替えさせる複雑な機構は不要である.というのが 
Transmeta の主張である. 

なお， Efficeon で採用された新しい CMS では，最 
大100個の x 86 命令からなる領域を一度に処理し，命 
令処理の流れを考えた最適化を行う.また，最終的に 
は，領域間にわたった最適化も行う.これによって著 
しい性能向上が果たされるという.これらの処理が4 
段階に分かれて行われるため， Transmata ではこれ 
を「4段ギアシステム」と呼んでいる.それなら従来 
方式は「3段ギアシステム」といえよう. 

• 性能比較 

Crusoe の性能を2001年当時の Web サイトに掲載さ 
れた ベンチマークで 見てみよう . HDBENCH ver 3.30 
(整数と浮動小数点のみに着目）で比較したのが図29 
である.周波数比を考慮すれば，まあまあ健闘してい 
るほうか.ただ， Pentium 4 や Athlon の動作周波数が 
2 GHz に達しようとしている時代 (2001 年）において， 
性能的な魅力はない. 

なお ， Pentium M と Efficeon の HDBENCH の結果も 
追加しておく. HDBENCH では， Efficeon が Pentium 
M に圧勝か.ループ処理に強い CMS の特性が整数性 
能を飛躍的に向上させているのがわかる.浮動小数点 
性能はやや期待外れである. 

• 近年の Transmeta 

時代は今より少し遡った2001年の9月 . WORLD 
PC EXPO のために来日した Transmeta CTO (最高技 
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術責任者)の David R . Ditzel (当時）によると ， Crusoe 
は 256 ビット版のほかにも別のロー ドマップがあるそ 
うだ.これは現行の Crusoe と同じ128ビットアーキテ 
クチャで性能よりも低消費電力を追求する廉価版で 
ある. 

2001年の Microprocessor Forum で発表された TM 
6000が廉価版の第1弾と見られる.従来の TM 5000 シ 
リーズは North Bridge までの内蔵だつたが， TM 6000 
では South Bridge ，2 D Graphics , PCI バス， USB な 
ども内蔵する. DRAM をつなぐだけで PC を構成でき 
ると いうの が売りである. 

2002年1月の時点で Frank Priscaro Transmeta の 
プランデイングデイレ クタによると， TM 6000の出荷 
は2002年10月になり，256ビット版 Crusoe である 
TM 8000 ( Efficeon ) は2003年にずれ込むそうだ.また， 
TM 6000は，従来 Crusoe がターゲットとしてきた小 
型 ノー ト PC 以外へも プロモーシヨン する方針らしい. 
周辺を内蔵するため，同等の TM 5800システムより， 
実装面積で1/3以下，消費電力は2/3になるという. 


2002年4月に開催の WinHEC(Windows Hardware 
Engineering Conference ) では，統合型 MPU の 
TM 6000 までが2003年に延期されることが明らかに 
なった . 「2002年は TM 5800のクロックアップや CMS 
の改良にフォーカスする」というのがその公式の理 
由だ. 

2002年5月には, CTO の David R . Ditzel ゃ新 CEO 
(最高経営責任者)の Matthew R . Perry らが東京•渋 
谷で記者会見を開き，苦境脱出に向けて「ジャパン • 
ファースト 戦略」と 「 CrusoelOOO 構想」を宣言した- 
この 「ジャパン. ファースト 戦略」とは， ポータブル 
PC が普及している日本市場での展開を強化すること 
で， Crusoe を全世界にも普及させていくという戦略 
である.そして 「 CrusoelOOO 構想」とは，価格が1000 
ドル 以下，重さが100 0 g 以下，電池寿命が1000分(約 
16時間）以上，動作周波数が1000 MHz 以上の PC を目 
指すという構想である.内容的に新規なものはないが， 
256ビット Crusoe である TM 8000について概要が少し 
公開された. TM 5800と比べて，性能を2倍〜 3.5 倍に 
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Crusoe に関する個人的感想 


Crusoe は，2命令または4命令の並列実行を想定して 
いるので， Itanium の6命令よりは現実的だと思われる. 
平均的には3命令同時実行のアウトオブオーダ処理と同 
程度の性能（同ークロックの Pentium ID) と思われるが， 
CMS の動的な変換による オーバへ ッドのために，その 
75%程度の性能に落ち着くと考えられる.これは，まず 
まずの性能といえるかもしれない.エミュレーションで 
この レベルの 性能を達成できたのは快挙といってもよ 
い. CMS がよほど優秀なのだろうか.そしてそれに付 
随する VLIW エンジンの処理性能の良さも忘れてはい 
けない. 

ただ， VLIW の命令形式がハードウェア資源によって 
規定されるため，バイナリ レベルのモレ キュー ルの 互換 
性を保つためにハードウヱア構成を変更できないとい 
う， VLIW マシンに共通する欠点を内在しているのは確 
かである.その意味で，ハードウェアによる性能改善は， 
動作周波数の向上とキャッシュの大容量化くらいしか道 
が残されていない.しかし， Crusoe の位置付けは x86 
命令を実行するモバイル用 MPU であり， VLIW 命令で 
プログラムを書く人はまずいないと思われる.ハードウ 
ェアの変更とともに CMS も入れ替えてしまえば，バイ 
ナリ互換性の問題は解決する.もしかしたら， Torvalds 
がいうように，本当に画期的な MPU なのかもしれない. 

2000年の終わりに， IBM や Compaq がノート PC への 
採用をキャンセルしてケチがついた格好の Crusoe であ 
るが，その第一の理由は性能が「期待外れ」ということ 
である.この理由は HP の Itanium の不採用にも通じる 
ところがあるように思える. VLIW では性能が出ないと 
いうのは定説なのだろうか. 

しかし， Crusoe の利点は性能よりも低消費電力であ 
り，日本のノー ト PC メーカはこぞって Crusoe の採用を 
表明した.米国よりも日本で人気があるのが Crusoe の 
特徴である.しかし，2001年になって， Intel や AMD 
が本気で低消 t 電力の MPU 開発に取り組み始めると， 
その存在意義はなくなってきた.おりからの不況の影響 
で，日本でのノート PC の売れ行きは不振になり，2001 
年度の Transmeta の売り上げは散々なものになった. 

それはともかく， Transmeta は2002年にリリースす 
る Crusoe2.0( 現在は Efficeon) で1クロックサイクル当た 
りの性能を倍に引き上げ，消費電力を約半分に削減する 
という構想を立てた.具体的には，現在では4命令128 


ビットの VLIW を倍の8命令256ビットに変更するとい 
う.これにより， IPC が従来の 2.2 から 5.5 に向上すると 
いう.動作周波数は 1GHz を越え，性能が向上したこと 
により動作時間が短縮され，消費電力は 0.5W 以下とな 
る予定である（これは TM 8000として発表された）.また， 
同時に CMS も徐々に改版を行い，性能を40%向上させ 
るという. 

ここでの問題は，通常のプログラムにおいて同時実行 
可能な8命令の組を見い出せるか否かにかかっている. 
これはほとんど不可能なのではないかと思われる.個人 
的には Intel の執拗な反撃にあった丁 ransmeta が死に物 
狂いでロー ドマップを描き直しているという気がしない 
でもない. 

VLIW で命令の並列度を上げていくという方針を Intel 
は Montecito ではあきらめた.しかし， Transmeta はど 
うするのだろう.仮にデュアルコアの場合を考えよう. 
この場合は CMS のトレースキヤッシュ領域が2倍にな 
って主記憶領域を圧迫してしまう.それならば VLIW 
単位での スーパー スカラだが，これでは VLIW 構成に 
することで回路を簡略化し，消費電力を下げたことの意 
味がなくてってしまう. Itanium と Crusoe の最大の相 
違点は，サーバ向けの Itanium が電力を問題としないの 
に対して， PC ゃモバイル分野をねらう Crusoe は低消費 
電力が売りの 一つで ある点である.性能と電力のバラン 
スをどのように保っていくのかが Crusoe の課題である. 

また，対抗する Intel も Crusoe の躍進を快くは思って 
いないらしく，ノー ト PC に特化した Banias(Pentium 
M) を投入して， Transmeta の息の根を止めようとしてい 
る. 2003年3月12日，日本のノート PC メーカは Banias 
を搭載する機種を一斉に発表した.実機でのベンチ 
マーク結果では， 1.3GHz 動作の Banias は 867MHz 動作 
の Crusoe(TM 580 0) の約4倍の性能を示し，肝心な電池 
寿命も 1.5 倍以上を示した.それと前後して， Transmeta 
は TM 8000の概要をリークし牽制を試みたが，実物がな 
いせいか，あまり注目されなかった.今後 Crusoe が， 
Intel の Banias にどのように対抗していくかに要注目だ 
った.結果は Intel の圧勝であり， Crusoe 採用のノート 
PC は消滅した.そのノー ト PC 市場を發回するために 
Transmeta が世に送り出したのが，かつて Crusoe2.0 と 
呼ばれていた Efficeon なのである. 


向上させるほか，消費電力は46%〜67%に低減させ 
る.動作周波数については明らかにされてないが， 
TM 6000が 1GHz であることを考えると，同程度と思 
われる. 


2002年7月18日， Transmeta は業績不振を理由に 
200人（従業員の40%)の人員削減を発表した.また， 
家電機器向けの統合型プロセッサである TM 6000の製 
品化を断念し，以後は TM 5800に注力することを明ら 
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かにした.ほかの x 86 互換プロセッサと比べて性能面 
で苦しい Crusoe の強みは冷却フアンを必要としない 
実装面積の小ささだったはずだが，その特徴をさらに 
推し進めることのできる TM 6000をあきらめることで 
生じる波紋は非常に大きい.ほんの2か月前に発表さ 
れた 「 CrusoelOOO 構想」はいったい何だったのだろ 
う. TM 6000をキャンセルした理由に対する David R . 
Ditzel の公式見解は， TM 5000シリーズを使っている 
顧客は同じフットプリント（実装面積）のチップに同じ 
CMS (Code Morphing Software ) を継続することを望 
んだためであると，あくまでも顧客側の要望であるこ 
とを強調している. 

Transmeta は2002年11月， COMDEX / Fall 2002の 
会場近くのホテルで，新プロセッサ Astro (後の Efficeon ) 
を披露した. Astro は 0.13 プロセスで製造され， 
Crusoe TM 8000」シリーズとして2003年半ばのリリー 
スを予定している. Astro は256ビット版の Crusoe の 
第1弾である.つまり，1クロックサイクル当たり八 
つの命令を発行できる. Transmeta によると ， Astro 
では，1クロックサイクルで処理できる作業量が増加 
するので，消費電力の削減にもつながるとしている. 
これは Intel の Banias の考え方にも通じるものがある. 

さらに， Astro のデモも行ったという.デモはア 
プリケーシヨンの起動を中心としたものだったが， 
Astro は Pentium 4 の 1.8 GHz と比べて2倍以上の体感 
性能を得ている.それぞれの PC の動作環境（メモリ 
容量や動作周波数など）が明らかでないので，比較の 
公平性は不明だが， Crusoe としては面目躍如である. 
ここで使われている CMS は，トレースキャッシュを 
ハードディスク上にも確保して，性能向上を図ってい 
るのではないかと推測される. 

2003年1月6日， Transmeta は小売店の POS ( point - 
of - sale ) 端末や業務用機器などへの採用を意図した， 
組み込み用の新省電カチップ 「Crusoe Special Embed 
ded ( SE )」 を発表した.動作周波数は 667 MHz / 
800 MHz /933 MHz で，それぞれレギュラー モデルと 
省電カ モデルが 用意されるという. CrusoeSE は， 組 
み込み市場で主流の ARM / MIPS 製 MPU と， Intel / 
A M D 製 M P U の間のニッチ市場をねらった製品であ 
ると明言している.つまり， ARM / MIPS より性能 
(周波数）が高く， Intel / AMD より電力が低いことが 
売りである. Transmeta のニュースリリースを読ん 
でみても， CrusoeSE が従来品とどう違うのかあまり 
判然としない.組み込み向けに温度拡張(最大100 ° C ) 


がされている程度であろうか.それにより，動作周波 
数が従来品より低くなっている.裏をみるなら ， PC 
分野では Intel や AMD に敵わないと予想した Trans 
meta が，主要な応用分野を組み込み制御分野に方針 
転換しただけだと取れなくもない • 

2003年の1月14日には，従来品の TM 5800に，暗 
号化エンジンやディジタル認証と暗号化キーを保存で 
きる機能などの複数のセキュリティ機能を組み込むこ 
とを表明した.具体的には， DES(Data Encryption 
Standard ) や DES - X , Triple - DES のアクセラレータと， 
保護されたメモリ領域を内蔵する.これらは，主に無 
線ネットワーク上で使われるノー ト PC のデータ保護 
のための利用を意図しているらしい.セキュリティ機 
能を別チップや別ソフトで実現している Intel と差別 
化する目的もある.この新プロセッサは，すでにサン 
プルが完成し，2003年4月から6月にかけて PC メー 
力に大量出荷が予定されているという . Transmeta 
もまだ PC 分野を諦めていないという決意表明か. 

• Effjceon の発表 

2003年8月12日， Transmeta は TM 8000のブラン 
ド名を「 Efficeon 」 とすることを発表した . Efficient 
Computing の意味をもつという. Efficient (効率的）と 
はエネルギーの 効率的な利用を示す. Transmeta は 
コー ド ネームで ある Astro の もじり （ Astrino ， Aztro , 
…）を検討していたが，商標に抵触するものばかりで 
断念したという. 

その Efficeon は動作クロックが 1 GHz 以上の性能で 
登場し， HyperTransport に対応すると予想されてい 
る. 8月12日の発表では， Efficeon は従来の Crusoe 
に対して同一動作周波数では実用アプリケーションで 
50%,マルチメディアアプリケーションで80%の性 
能向上が期待できるとしている. 

かくして，2003年10月14日 ， Microprocessor 
Forum で Efficeon の詳細が発表された.それによる 
と， Efficeon は2003年内に1 .3 GHz 動作で出荷される 
という. NorthBridge を内蔵することは従来の 
Crusoe と同じだが ， HyperTransport と Accelerated 
Graphics Port ( AGP ) を内蔵して性能向上を図ってい 
る. Transmeta によれば，従来の Crusoe は AGP をサ 
ポートしておらず，それがノート PC 市場進出への足 
枷になっていたという. 

Efficeon の特徴は，従来の Crusoe が4命令（アトム） 
を並列実行していたのに対し，8命令を並列実行する 
ものである.しかも，演算器は11種（ロード/ストア 
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/32ビット加算器 x 2,整数 ALUX 2, エイリアス xl ， 
制御 xl ， 浮動小数点/ MMX / SSE / SSE 2 x 1， 
MMX / SSE / SSE 2 x 1,分岐 x 1，実行 x 2) に増加さ 
れ，8個並んだ任意のアトムから任意の演算器に命令 
発行可能だという.従来はアトムの位置によって選択 
される演算器が一意に決まっていた•構造的には， • 
歩 Itanium に近づいた感がある. 

なお，「エイリアス」はアドレスの一致性をチェッ 
クする演算，「制御」は内部レジスタの制御，「実行」 
はインタプリタ （ Efficeon ) のループ処理の効率的な実 
行を支援するものである. 

Efficeon ではデータの供給を早めるために，ストア 
の次にロー ドが来た場合は，ロー ドを優先して実行す 
る.しかし，ストアとロードのアドレスが一致する場 
合は，このような追い越しができない.このアドレス 
の一致判定をするのが「エイリアス」ユニットである. 
このようなロー ド/ストアの並び替えは I / O ポートに 
関する場合は矛盾を来たすのだが，メモリとレ〇の区 
別は CMS が「4段ギア」の「一速」目に認識して矛 
盾が発生しないようにしている. 

Efficeon の VILW 命令には 「 execute 」 といつ命令 
が追加されており，これを実行するのが「実行」ユニ 
ットである.インタプリタ （ CMS ) が内部ループを発 
見すると，その命令列を 「 execute 」 という1命令で 
代替させるのだという.「実行」ユニットの具体的な 
構造はよくわからないが，同じ命令列の繰り返しを計 
数するカウンタなどがあるものと思われる. 

また，内蔵キャッシュも L 1 命令キャッシュが 128 K 
バイト （4 ウェイ）， L1 データ キャッシュが 128 K バイ 
卜 （8 ウェイ）と倍増され， L 2 キャッシュが 1 M バイト 
と4倍になっている. 

さらに，浮動小数点演算の性能向上を目指したのか， 
浮動小数点レジスタが 64 本に倍増されている（シャド 
ウレジスタは 48 本）. 

CMS もバージョンが 5.0 になり，繰り返し処理の最 
適化が図られている.つまり，同じ命令列の繰り返し 
実行回数がある程度大きくなると，トレースキャッシ 
ュ内の命令（アトム）をスケジューリングし直して実行 
するのだそうだ.このへんの説明はやや理解不能だ 
が…. 

バイプラインは，整数演算が6ステージ，浮動小数 
点演算が8ステージである.これは， Crusoe に比べ 
てパイプライン段数が1段減ったようにみえる.実際 
は， Efficeon では，命令フェッチと実行がデカツプル 


IS : Instruction Issue 

DR : Instruction Decode 

RM : Register Read for ALU operands 

EM : Execute ALU opration 

CM : ALU Condition flag completion 

WB : Writeback Results to Integer Register File _ 

( a ) 整数パイプライン 

IS '• Instruction Issue 
DR : Decode -1 
DT : Decode -2 

XA : Floating Point Compute Stage -1 
XB : Floating Point Compute Stage -1 
XC : Floating Point Compute Stage -1 
XD : Floating Point Compute Stage -1 
W 巳： Writeback Results to FP Register File _ 

( b ) 浮動小数点パイプライン 

図 30 Efficeon のパイプライン 

構成になっているため，命令フヱッチを行う2段分の 
ステージが 省略されているので，1段増加していると 
もいえる（図 30). 

• Efficeon の命令フ オー マッ ト 
Transmeta の Ditzel によると， Efficeon は， Crusoe 
が64ビット（二つのアトム）と128ビット（四つのアト 
ム）の命令長だった（図24参照）が， Effiecon では，最 
小32ビット（一つのアトム）から最大256ビット（八つ 
のアトム）まで，32ビット単位に8種類の命令フオー 
マットをサポートするそうである.これは CMS で 
x 86 命令から変換されたアトムをトレースキャッシュ 
に格納するオブジェクト効率を高める（トレースキャ 
ッシュの容量を節約する）ためである. 

Crusoe では，かならず二つまたは四つのアトムで 
モレキュールを構成しなければならないため，並列度 
が少ない場合は，空いたスロットに N 0 P 命令を詰め 
なければならなかった. Diztel によると， Crusoe で 
はトレースキャッシュ内の20%〜25 %が N 0 P 命令で 
あった.それが， Efficeon では約5%になり，通常の 
RISC プロセッサと同程度になったという • 

この Ditzel の説明は衝撃的である. VLIW で N 0 P 命 
令の存在確率が多いということは，4命令が並列実行 
できる機会が少ないということを意味する. 20%〜 
25 %が NOP 命令ということは，せいぜい3命令の並列 
実行しかできていなかったということである.素直に 
取れば VLIW は無効という告白にもなる.なのに， 
Efficeon であえて8命令の並列実行フオーマットに拡 
張するということは，オブジェクト効率を悪化させる 
方向に進んだように思える.それを解消するための手 
段が，命令発行の単位を1〜8アトムと，柔軟性を持 
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図 31 

Efficeon パイプライン 
の命令実行フロー 


ISDRRMEMCM WB 



たせることである. 

しかし，命令発行の単位が1〜8アトムということ 
は，アトムを命令の単位とする8ウェイのスーパース 
カラと同じではないのか.多分， VLIW というからに 
は，各アトム間の依存性はチェックしないのだろう. 
そう考えれば，モレキュールを構成する最大八つのア 
トムのそれぞれが任意の演算器に発行可能な理由がわ 
かるような気がする. 

図31に Efficeon パイプラインでの命令実行フロー 
を示す.デカップル方式なのは， Intel の Itanium2 も 
同じなので驚くべきことではないが，命令キューの格 
納単位がアトムにとされているところが，通常のスー 
パースカラ構造のプロセッサを連想させる. 

結局は， Efficeon も VLIW をあきらめて，スーパー 
スカラを採用したのだなと考えると一抹の寂しさを感 
じる.まあ， Transmeta としては VLIW が大事なの 
ではなく，いかに低消費電力で高性能なプロセッサを 
提供するのかが目的なので， VLIW かスーバースカラ 
かというのはそんなに大きな問題ではない.しかし， 
Efficeon でも VLIW と大きく宣伝している…. 

一方， Crusoe で強調していた VLIW で消費電力が 
下がるという主張はウヤムヤになり， LongRun2 とい 
う荒業でスーパースカラ構造にしたことによる消費電 
力の増加を削減するのかと考えると， Efficeon も普通 
のプロセッサになってしまったなと思ってしまう. 

構造的には，ライバルである Pentium M とほとん 
ど変わらなくなったので，それと同性能以上の性能を 
達成できたとしても不思議ではない.結局， VLIW で 
はだめだったのか. 

• Efficeon のラインアップ 

最初の Efficeon は TSMC の 0.13 プロセスで製造 
されていた. L2 キャッシュの容量とパッケージの展 
開により， TM 8600 (L2 キャッシュ 1M バイト，通常 


パッケージ）， TM 8300 (L2 キャッシュ 512K バイト， 
通常パッケージ）， TM8620(L2 キャッシュ 1M バイト， 
小型パッケージ）の3種類がある.消費電力 (TDP) は， 
動作周波数が 1.3GHz，1.2GHz，1.1GHz，1.0GHz に対 
して，それぞれ 14W，12W, 7W, 5W という. 

その後，富士通の 90nm プロセスで製造した Efficeon 
には， TM 8800 (L2 キャッシュ 1M バイト，通常パッ 
ケージ）， TM 8500 (L2 キャッシュ 512K バイト，通常 
パッケージ）， TM8820(L2 キャッシュ 1M バイト，小 
型パッケージ）の3種類がある.消費電力 （TDP) は， 
動作周波数が 2.0GHz，1.8GHz, 1.6GHz, 1.4GHz, 
1.0GHz に対して，それぞれ 25W，12W，7W, 5W, 
3W という. 

Transmeta は消費電力の小ささを強調している. 
しかし，従来の Crusoe が 7W 以下だったことを考慮 
すると，周波数比から考えて，それほど小さい値だと 
は思えない.さすがに 90nm プロセスになると電源電 
圧が低下するせいで少し小さくなっているようだ. 

Transmeta は消費電力を下げるために，トランジ 
スタのスレッショルド電圧（V,/,)をソフトウエアで制 
御することにより，トランジスタのゲートリーク電流 
を減らすことが可能な LongRun2 技術を提唱してい 
る.本当にそのようなことが可能なのか(単なるバッ 
クゲートバイアスという憶測もある）と疑問を抱く. 
この LongRun2 は130 "m プロセスの Efficeon には搭 
載されず， 90nm あるいはその先の 65nm プロセスか 
らの実装という.しかし，そのための回路は最初の 
Efficeon から実装されているという. 

2003年10月の Microprocessor Forum で公表された 
LongRun2 技術は「全体像の10%にすぎない」という 
話であり，水面下にはさらに画期的な電力低下技術が 
隠されている可能性がある. Transmeta は LongRun2 
技術を他社にライセンスすることを考えており，その 
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ライセンス収入を Efficeon と並ぶ二本柱にしようと考 
えているようだ. 

日本法人トランスメタの社長は，既存の Crusoe と 
Efficeon の棲み分け について 「 Crusoe はロー エンドバ 
リューマーケットをターゲットにし，組み込みシステ 
ムを中心に 薄 型 PC や ハン ドへルド PC までを カバー 
する. Efficeon は ハイエンドパフオーマン スマーケツ 
卜を対象とし，従来の Crusoe の市場であった組み込 
みシステムからウルトラライトノート PC やメインス 
トリームノート PC に加え，静音タイプの省スペース 
型デスクトッブやブレード サーバ， デイジタル コン シ 
ューマと呼ばれる家電まで，広範囲な市場をターゲッ 
卜にする」と説明している.しかし，それは Efficeon 
の ベンチマーク 性能(後述）を見る限り，無謀な計画と 
思われる. 

T ransmeta は Efficeon を採用する大手 OEM ベン 
ダーとして，シャープ， HP ， 富士通を挙げている.業 
界の噂では，シャープは MURAMASA の後継機種に， 
HP は Compaq Tablet PC TC 1000の後継機種に採用 
を検討しているらしい.富士通はまだ検討段階に入っ 
たところだという.しかし，こういうポータブル PC 
とかミニノート PC という製品群は，日本以外でのシ 
ェアは1%未満といわれており， Efficeon の出荷台数 
は期待できない.これをどう乗り切るかが Transmeta 
の手腕の見せどころであろう. 

Efficeon の特徴は，（ある程度の）低消費電力（冷却 
ファンの削除）と， NorthBridge と AGP 内蔵によるシ 
ステムコストの安さにある. HP はブレード PC とい 
う新分野に Efficeon を採用したが， 1 GHz 動作の 
Pentium M 採用のシステムが約2000ドルなのに対し 
て， 1.8 GHz の Efficeon のシステムなら約1000ドルで 
あると強調している. 

• Efficeon の性能 

さて，現在の Crusoe がノー ト PC から消え失せてい 
った背景には，対抗機種の Pentium M と比べて性能 
が劣るという点があった. Efficeon が世間に受け入れ 
られるか否かは ， Pentium M を凌ぐ性能を達成でき 
るかどうかにかかっている.なお， VLIW の幅が2倍 
になったことによる性能向上は平均的には 1.5 倍とい 
うことである. 

Efficeon の発表と同時に， Transmeta はベンチマーク 
結果を公表している. 1.1 GHz 動作の Efficeon と900 
MHz 動作の低電圧版 ( ULV)Pentium M を比較してい 
る.その理由は，どちらも TDP が 7 W であり，その 
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電力を「フアンレスノートの限界」と Transmata が 
考えているためだそうである.しかし， 1 GHz 動作の 
ULV Pentium M の TDP も 7 W であり，やや公平さを 
欠ぐ 

結果としては，ベンチマークによって得手不得手は 
あるものの， TM 860 ◦は Pentium M の約 1.1 倍の性能 
であった. Intel や AMD と比べて同一動作周波数での 
性能が低いと揶揄され続けてきた Transmeta にとって 
面目躍如というところである.しかし， Astro のリー 
ク時点では 1.8 GHz 動作の Pentium 4 の2倍の体感性能 
といっていた事実はなかったことになってしまった. 

また， Transmeta は TM 8600 と Pentium M はほぼ 
同性能であるが，アイドル時の消費電力は TM 8600で 
は1/8と強調する.つまり ， Pentium M は 1.45 W であ 
るが， Efficeon は0.18 W であるという. 

Efficeon ( TM 8600 /1 GHz ) 搭載の 「 MURAMASA 
PC - MM 2-5 NE 2」 は2003年12月8日に発表された.し 
かし，どの Web サイトもこの MURAMASA の ベンチ 
マーク 記事を載せないのが不気味である（シャープか 
ら ベンチマーク 禁止令でも出て いるの か？）.ただ， 
ある Web サイトの記事によると ， Crusoe ( TM 6500/ 
1 GHz ) と比較して， OS ブートでは33 %， PowerPoint 
の2回目起動では 52.5 %高速化されたという報告がさ 
れている.このような比較に意味があるかどうかはわ 
からないが，堂々と高性能を謳わないところに先行き 
の不安を感じさせる. 

その Web サイトの2003年12月17日付けの記事には， 
満を持してけ ）， Efficeon (シャープ MURAMASA ) 
の ベンチマーク 結果が載っていた.結果としては，や 
はり，900 MHz 動作の Pentium M と同等の性能であ 
る.その記事が電池の持ち時間をやたらにアピールし 
ているところにうさん臭さを感じるが. 

• Efficeon の□ー ドマップ 

図32に Efficeon のロードマップを示す.最初の製 
品には TSMC の 130 nm プロセスを利用するが，2004 
年の下半期には富士通の 90 nm プロセスに移行する. 
何故富士通なのか.それは時代は 130 nm から 90 nm に 
移行しようとしているが， Transmeta が各社の 90 nm 
プロセスを ベンチ マーキングしたところ富士通のもの 
がもっとも性能がよかったためという. Efficeon の売 
りは低消費電力なので，富士通が気を利かしてスレッ 
ショルド（ V ",)の高いプロセスを提示したが ， Trans 
meta は V ,/,を制御する技術 ( LongRun 2) があるので， 
できるだけ V ,,,の低い高速プロセスを望んだというの 


225 





1.3 GHz /14 W 
1.2 GHz /12 W 
1.16 Hz/7W 
1.0 GHZ /5 W 


1.6 GHZ /7 W 

1.4 GHZ /5 W 

1.0 GHZ /3 W 



図 32 Efficeon の _|_| - 

ロードマップ 2003年第 4 四半期 2004年 2005年 


は，業界では有名な話である. 

Microprocessor Report は， Transmeta が目社の 
ロー ドマップどおりに製品を開発できれば， Intel の 
Pentium M に奪われた市場をいくらか取り戻せると 
報じている. 130 nm で製造する 1.3 GHz 動作の Efficeon 
は， 1.7 GHz 動作の Pentium M (消費電力は 25 W ) に比 
ベると動作周波数が低い.しかし， 90 nm で製造する 
2 GHz 動作の Efficeon は，同じ 90 nm の次世代 Pentium 
M ( Dothan ) に十分対抗できる. Crusoe に比べると 
Efficeon は性能面で大きく飛躍した. Efficeon を搭載 
したシステムが登場して Pentium M 搭載システムと 
比較できれば， Transmeta の主張の正しさを検証で 
きる.現在のところは，同社のロードマップと技術は 
極めて有望に見えると結んでいる. 

•余談 

Crusoe の由来はいうまでもなく，ロビンソン•ク 
ルーソ ーである. 世界中誰でも 知っていて， 数々の苦 
労を創意工夫で乗り越えて最後に目的（故郷に帰る）を 
達成したという点にならい，世界でもっとも一般的な 
な MPU となるべく命名されたという.その名称の通 
り， Crusoe の前途に fi 波乱万丈が予想される. 

…と思っていたら，後継機種は「効率」をもじった 
Efficeon である.上述したように， Efficeon は8ウエ 
イスーパースカラともみなせるので， Crusoe はよほ 
ど効率が悪かったのだろう. 

まとめ 

かつて， VLIW という方式を初めて耳にしたとき， 


頭に浮かんだのはマイクロプログラムというイメージ 
だった.実際，固定長の命令，同時実行できる複数の 
命令をひとまとめにして処理するというのはマイクロ 
プログラムの発想そのものである. 

そこで，本章ではマイクロプログラミングと VLIW 
を同時に取り上げて対比してみたが，いかがだったで 
あろうか.違いは，マイクロプログラミングは人間の 
手で泥臭い方法で作成されるが， VLIW はコンパイラ 
を使うというところであろうか.性能を出すために人 
間の頭脳とソフトウェア（コンパイラ）が対峙している 
イメージには興味深いものがある.ただ，現在脚光を 
浴びている Itanium や Crusoe がこのまま生き延びて 
いけるという意見には，個人的にはやや懐疑的なこと 
を付け加えておく.最終的には絶対的な性能がものを 
いうような気がするので.低消費電力はあくまでオマ 
ケだと思う. 

しかし， Transmeta の行き先としては低消費電力を 
アピールせ ざるをえな レ 、状況にあるのは確かである. 
識者の予想には， Efficeon はブレードサーバに使われ 
ることを意図しているというものもあり， Transmeta 
の目指す応用分野がよく見えない. 

VLIW は， PC の世界での普及はまずないと思われ 
るが，組み込み制御用のプロセッサには VLIW 構造 
を採用するものが数多く見られる.汎用プロセッサ 
では，富士通の FR-V や三菱電機の M 32 R がある. 
MPEG -4 など専用分野に特化したものは枚挙に暇がな 
い.やはり，単純な構造でそこそこの性能を得られる 
点が魅力なのだろう. 
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誤り検出/訂正符号やシステムの多重化など 

高信頼性をサホートする機能 


コンピュータの応用は，さまざまな分野に広がって 
いる.その中でも，金融機関のオンライン処理，医療 
機器，ロケットや人工衛星，交通機関制御への応用は 
高い信頼性を要求される.これらの分野では，コンビ 
ュータが停止すると重大な事故を引き起こしてしま 
う.しかし，どんなに注意していても故障（フォール 
卜）は発生する.その場合でも，被害を最小限に食い 
止めるしくみがコンピュータに求められる.このよう 
に，故障に強く無停止動作を実現するシステムを「フ 
オールトトレラントシステム」という. 

また，大型計算機や EWS などの一般的なコンビ 
ュータでも，ある程度の高信頼性は重要である.いっ 
たん故障が発生すれば，修復や保守のコストが高くつ 
いてしまう.それを避けるためのしくみは， RAS (信 
頼性： Reliability , 可用性： Availability , サービス 
性 • 保守性： Serviceability ) として，高性能コンビ 
ュータの特徴の 一つと なっている. 

高信頼性は， MPU , メモリ，記憶装置， I / O 装置 
など，システムのすべての構成要素に要求される.そ 
の本質は故障の検出にある.ここでは， MPU が提供 
するフォールトトレラントシステムのサボート機能に 
ついて説明する. 

• 誤り検出/訂正符号 

MPU に直接接続されている周辺機器には，メモリ 
と I / O がある. I / O に関しては，同じアドレス（ポー 
卜）であっても入出力される値は場合によって異なる 


ので，その値が正しいかどうかを判断する方法はない. 
しかしメモリに関しては，与えられたアドレスに対す 
るメモリの内容は意図的に変更しないかぎり不変であ 
るはずなので，その値が正しいか否かを判別するのは 
重要である.メモリに記憶されているデータは放射線 
やノイズによって破壊されることもあり， MPU がリー 
ドする値がいつも正しいとはかぎらない.高信頼化シ 
ステムではメモリ内容の正当性を保証する必要がある. 

メモリの誤りを検出する方法として通常は以下のよ 
うな作業が行われる.まずメモリライト時に，その 
データを加工した特殊な値（シンドロームと呼ばれる） 
をデータと一緒にメモリに格納して おく. その後のメ 
モリリード時に，メモリからデータと同時にリードし 
たシンドロームとデータから新たに計算されるシンド 
ロームを比較し，一致するか否かを検査する（図 A ). 
シンドロームが一致すればそのデータは正しいとみな 
せる.この際，データからシンドロームを再計算する 
機構と比較する機構は MPU 内部に備わっている.誤 
りを検出した場合は例外を発生する. 

このような誤り検出符号では，パリテイと ECC 
(Error Checking and Correcting ) が有名である.た 
だ，パリテイにしろ ECC にしろ，シンドロームを計 
算する機能が高速動作時においてクリテイカルパスと 
なるため，組み込み用途などの安価な MPU では採用 
されない. 


図 A 

誤り検出符号を使用するシステム 


MPU 


メモリ 
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図 B 冗長構成（外部回路で不一致検出) 


►もっとも単純なパリティ 

誤り検出符号でもっとも単純なものはパリティであ 
る.これは，データ内の全ビットの排他的論理和を取 
った1ビットの値である.パリテイを含めて結果が0と 
なるもの（つまり1の数が偶数）を偶数パリティ (even 
parity ), 結果が1となるもの（つまり1の数が奇数）を 
奇数パリテイ (odd parity ) と呼ぶ. 

パリティは，その生成原理から，偶数個のビットが 
誤った場合でも正しいデータとみなしてしまう.その 
危険を少しでも低減するため，データをいくつかに分 
割して，それぞれをパリティで管理する.たとえば， 
32 ビッ トデータであれば4分割して，8 ビッ トず つに 
し，対する計4ビットパリティを用いる. 
►パリティより複雑な ECC 

ECC はパリティよりも複雑な符号化を用いる.パ 
リティと異なり，データに誤りがあった場合それを訂 
正することができるのが特徴である.何ビットの誤り 
を訂正できるかにより，いろいろな符号化方法がある 
が，実現のしやすさとハードウェア規模を考慮して 
SEC-DED ( Single-bit Error Correcting and Double ¬ 
bit Error Detecting ) コードが多用される.これは， 
その名のとおり，1ビットまでの誤りを訂正し，2ビッ 
卜までの誤りを検出することができるコードである. 

SEC - DED のシンドロームの計算方法は複雑なので 
ここでは言及しない.簡単にいうと，データの各ビッ 
卜を数種類の係数列と積和することで数ビットのシン 
ドロームを得ることができる.何種類の係数列が必要 
かはデータのビット長に依存する.たとえば，64ビ 
ットデータに対しては8系列が必要である.結果とし 
て，64ビットデータからは8ビットのシンドローム 
( ECC コード）が生成される. 


メモリに保存されている ECC コードと計算した 
ECC コードの排他的論理和を取った場合，結果が〇で 
あればデータは正しいとみなせる.結果が0でない場 
合は，それをデコードすることでメモリデータ長に等 
しい値を得ることができる.もし，その値の中に1で 
あるビット が一つ だけあれば，メモリデータの対応位 
置のビットが誤りである.つまり，元のデータと排他 
的論理和を取ればデータを訂正できる.もし，1であ 
るビットが複数あれば，メモリデータが誤りであるこ 
とを表す.この場合は対応するビット位置が誤りとい 
うわけではない. 

ECC コードを採用する場合，メモリリードと同時 
にデータを訂正するには厳しいタイミングが要求され 
るため，動作スピードに影響を与えることになる•そ 
こで， MPU への実装では， ECC コードの排他的論理 
和を取った時点で，その値が0でなければ例外を発生 
し，訂正処理をソフトウェアに任せることが多い. 

• 冗長性による高信頼化 

MPU の高信頼化では，共通の入力に対し複数の 
MPU を同時実行させ，各 MPU の出力を比較し，そ 
の一致を検査する.これをロックステップ ( lock - step ) 
操作という. 図 B のように外部回路で一致を検査する 
方式もあるが，回路規模が大きくなるため好まれない. 
通常は MPU 自体が監視モードをもっている. 

監視モードでは， MPU の出力端子は入力端子に切 
り替わり，対応する端子の出力（これが監視モードへ 
の入力）と自身の出力を MPU 内部で比較する.もし， 
不一致が発生すれば，専用端子を活性化して，故障の 
発生を外部に通知する. 

ロックステップ構成における注意点は，複数の 
MPU を完全に同期化して動作させる必要があるとい 
うことである.とくに割り込みなどの非同期入力に関 
してはタイミングがずれないように注意をしないと， 
MPU 間の動作がずれてしまうことがある.この場合， 
たとえ正常動作していても不一致が生じることがある 
ためである.このため， MPU 間で定期的に同期を合 
わせる機構をもつ MPU もある.たとえば，特定の 
MPU をストールさせて，待ち合わせを行うための入 
力信号が提供されるのである. 

► 2 重化システム 

2重化システムでは，二つの MPU を並列に接続し 
てロックステップ操作をする.一方が通常モード，片 
方が監視モードである. 

監視モードをもつ MPU としては MIPS の R 4400 が 
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Appendix 4 高信頼性をサボートする機能 



( a ) Master-Listener 構成 


図 C 

2重化システムの例 



ある. R 4400では2種類の2重化システムをサポート 
する.一方が通常動作をし，片方が監視動作をする 
Master-Listener 構成〔図 C ( a )〕 と，一方がシステムイ 
ンターフェースを駆動しながら L 2 キャッシュインタ 
ーフェースを監視し，片方がシステムインターフェー 
スを監視しながら L 2 キャッシュインターフェースを 
駆動する Cross-Coupled チェック構成〔図 C ( b ) 〕であ 
る.つまり，通常モードを含めて4種類の動作モード 
をもつことになる. R 4400はブート時に4種類の動作 
モードを指定できる. 

►3 重化システム 

2重化システムでは，通常モードと監視モードのど 
ちらの MPU が故障したのか知ることができない•そ 


こで， MPU を三つ並列接続して多数決で故障した 
MPU を特定する構成がある.一つが通常モードで， 
残りの二つが監視モードである.この構成は，一般に 
TMR (Triple Mudular Redundancy ) 構成（図 D ) とし 
て知られている. 

この構成では，監視モードの一つの MPU が故障し 
た場合，構成を2重化システムに変更してある程度動 
作を継続できるという利点がある.その間に，部品の 
交換や修理を行うことができ，時間稼ぎができる. 

宇宙開発事業団 (NASD A ) が打ち上げを行った H 2 A 
ロケツトの姿勢制御，エンジン制御には NEC の V 70 
が使用されている. V 70 も FRM (Function Redun 
dancy Monitor ) と呼ばれるロックステップ動作をサ 
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図 D 3重化システムの例 


ステー タスバス 



ポートする. H 2 A ロケットでは V 70 の3重化システム 
が使われているそうである. 

• 監視タイマ 

複数の MPU で冗長構成を採らず，一つの MPU で 
故障検出を行う方法として監視タイマがある.これは 
ウォッチドッグタイマ （Watchdog Timer ) として知ら 
れている. 

これは単純なタイマである.初期値を設定し，それ 
がカウントアップあるいは，カウントダウンされて， 
一定の値に達すると割り込みを発生する. 

プログラムでは，いくつかのチェックポイントで， 
ウォッチドッグタイマに初期値を設定し直す.プログ 


ラムの実行に何か不都合が発生し，ある時間内にウォ 
ッチドッグタイマを設定できなければタイマが規定値 
に達し，割り込みが発生して故障を通知するしくみで 
ある.故障発生時は MPU をリセットする必要がある 
ので，ウォッチドッグタイマを専用にもつ MPU では割 
り込みの代わりにリセット例外を発生するものもある. 

氺 ホ 

フオールトトレラントシステムにおいて， MPU に 
要求される機能について説明してきた.使い捨ての感 
がある組み込み機器や PC では，低コスト化の要求が 
強いため高い信頼性を提供することは少ないが，こう 
いう世界もあることを知っておいてほしい. 
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処理性能を上げるための最後の切り札 


F ルチプロセッサの基礎 


mKmmmmmmm 


MPU 単体での性能向上に限界が見え始め，さらなる処理性能向上のために，複数のプロセッサを使って並列実 
行する方法（マルチプロセッサ）が考え出された.マルチプロセッサには，いわゆるプロセッサを複数個並べたも 
のから，1チップの中にコアを複数個実装したものなどがある.マルチプロセッサ時のメモリ共有やキャッシュ 
についても考察している. 


2001年， PC の世界では AMD の AthlonMP や Intel 
の Xeon が発表され，これ以降，デュアルプロセッサ 
構成がにわかに脚光を浴びてきた.これらは二つのプ 
ロセッサを S M P 形態で構成するマルチプロセッサで 
ある.マルチプロセッサは，従来はワークステーシヨ 
ンや サーバなどのハイ エン ド専用だったが，現在では 
デスクトップ用の可能性も見えてきている.つまり， 
AMD や Intel の製品系列にはデュアルプロセッサだけ 
ではなく， 4 CPU 以上のマルチプロセッサも標準的に 
組み込まれている. 

MPU の高速化技術はもはや出尽くした感があり， 
マルチスレッデイングやマルチプロセッサが最後の手 
段と考えられる. 

本章ではマルチプロセッサ構成の基礎について説明 
する.マルチプロセッサ構成自体には多くの研究がな 
されており，最新の成果を説明することは難しい•し 
かし，その基本となる知識はそれほど多くはない•そ 
れらについてみていってみよう. 

なお，ここではスーパーコンピュータのような超並 
列構造には言及しない. 

7マルチプロセッサの基礎 

• マルチプロセッサ 

MPU の実行速度を上げる手法としてパイプライン 
やスーパースカラが考案されてきたが，それらはプロ 
セッサ自体の高速化であり，それ以上に性能を追求す 
る場合，単ープロセッサでは限界がある.そこで，夕 


スクをいくつかのプロセスに分割し，それぞれを別個 
のプロセッサで並列に実行するという方式が考えられ 
た.これがマルチプロセッサである. 

RISC の産みの親である Stanford 大学の Hennessy 
総長は次のように言っている.「個別の技術で MPU 
の性能を向上する手法は行き詰まった.これからは， 
マルチプロセッサ構成の MPU を効率的に利用するソ 
フトウエアの開発が性能向上のキーボイントである」 
と.もっとも， Hennessy は R 10000 を発表した時点 
(1992 年）で，性能向上の次の技術は1チップに複数の 
プロセッサを統合することだと主張していた.諦める 
のが早すぎる感もあるが，それ以降登場してきた技術 
はチップマルチプロセッサとマルチスレッデイング 
(ハイパースレッデイング）のみ（その意味で Hennessy 
の予言は的中している）であり，ここ10年以上飛躍的 
な技術革新がないのも事実である. 

• マルチプロセッサの構成方式 

一般に，タスクが異なれば，データ領域も異なる. 
特別な場合を除き，同一のメモリ領域をアクセスする 
場合の競合(順序の保証など）を考慮する必要はない. 
しかし， 一つの タスクを分割しているプロセス（正確 
にはスレッド）間では共通のメモリ領域（変数領域）を 
アクセスすることは珍しくない.というより，メモリ 
領域はほとんどが共通といってもよい. 

マルチプロセッサ構成では，複数のプロセッサが互 
いにアクセス可能な共有メモリを用いるのが普通であ 
る.このような構成を共有メモリ型マルチプロセッサ 
(Shared Memory Multiprocessor ) という.この共有 
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図 1 マルチプロセッサ 
の構成 



( a ) 集中共有メモリ方式 ( SMP ) ( b ) 分散共有メモリ方式 


メモリの構成方法によって，図1のように，マルチプ 
ロセッサの構成は2種類に分類できる.より一般的に 
は，プロセッサと共有メモリを結合する方法は，共有 
バスとは限らず，相互結合網と呼ばれる.しかし，こ 
こでは簡単のために，共有バスの場合を考える. 

本書では共有メモリのあり方に注目して分類す 
る.またマルチプロセッサには，密結合マルチプロセ 
ッサ (Tightly Coupled Multi-Processor = TCMP ) と 
疎結合マルチプロセッサ （Loosely Coupled Multi ¬ 
processor = LCMP ) という 分類 も ある. 複数のプロ 
セッサが一つの 0 S と 一つの メモリを共有する形態が 
TCMP ， 個々のプロセッサがそれぞれのメモリと 0 S 
をもち（つまり独立したコンピュータシステムを形成 
し），入出カポートなどを通じて通信（ネットワークや 
高速バスで結合）を行うのが LCMP である.大型計算 
機では，密結合マルチプロセッサを疎結合することで 
性能を向上させている.以下に説明する SMP は 
TCMP と同一視されることが多い. 

►集中共有メモリ方式 

これは，プロセッサから共有メモリへのアクセス時 
間が一定という構成である.すべてのプロセッサが時 
間的空間的に対称なので，対称型マルチプロセッサ 
(SMP = Symmetric Multi - Processor ) とも呼ばれる. 
SMP において，複数のプロセッサは同等なものとし 
て扱われる.また，共有メモリはすべてのプロセッサ 
から同一のアドレスでアクセスできる.共有メモリが 
一つしかないので， SMP は UMA (Uniform Memory 
Architecture ) とも呼ばれる. UMA とは，本来は異な 
る属性のメモリを同一のメモリ空間上に配置するアー 
キテク チヤで ある. 現在では，グラフィックス用のフ 
レームバッファをメインメモリの一部として確保する 
方式を指すことが多い. 

SMP の利点としては，各 CPU が簡単にデータを共 


有でき，並列のプログラムが簡単に書けること，逐次 
処理のプログラムやプロセスを処理するのに優れてい 
る点が挙げられる.逆に弱点は，同時に一つのプロセ 
ッサしか共有メモリにアクセスできないので ， CPU 
の数が増えるにしたがいアクセス権の調停が難しくな 
ることである.しかし，その簡易性から，ほとんどす 
ベてのマルチプロセッサではこの方式を採用してい 
る.このため，多数の CPU をマルチプロセッサ構成 
にすることが難しく，現実には 4 CPU 程度が限界とな 

つている. 

キャッシュ内蔵の CPU をマルチプロセッサ構成で 
使用する場合，コヒーレンシの問題が発生する.後で 
説明するが， UMA では，各 CPU がアドレスバスを常 
に監視（スヌープ）して，自身のもつキャッシュ内の 
データにそのアドレスが一致するかどうかチェックし 
て，そこを無効化またはデータ更新することでコヒー 
レンシを維持する. 

SMP の反意語として非対称型マルチプロセッサ 
(ASMP = Asymmetric Multi - Processor ) というもの 
もある.これは，次に説明する分散共有メモリ方式を 
示す場合もあるが， 0 S のカーネル用， ユーザー プロ 
グラム用というように CPU の役割を区別する方式を 
示す場合もある. SMP とは異なり， ASMP の定義は 
はっきりしていない. 

►分散共有メモリ方式 

これは，プロセッサごとに局所メモリをもつ構成で 
ある.プログラムの実行には参照という局所性がある 
ので，この構成なら共有バスの転送量を低減できる. 
プログラムを容易にするために，局所メモリに連続し 
たアドレスを割り付け，論理的に単一の共有メモリと 
してアクセスできるようにする. UMA と対応して， 
NUMA ( Non-Uniform Memory Architecture ) と呼ば 
れる. 
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図3アムダールの法則 

イメージであろう. OS としてはとくに特殊な処理は 
必要ない.この場合，各アプリケーションの実行が終 
了する時間は，それぞれのプログラムが 一つの CPU 
で実行される場合と同じである.アプリケーションが 
複数ある場合には，それらが同時に実行されるので， 
すべてのアプリケーションの実行を終了する時間は早 
くなる.当然，アプリケーションが 一つの 場合には効 
果がない.この意味で，あるプロセスだけに限ってみ 
れば， CPU が一つのときと実行速度になんら変わり 
はない. 

スレッドと いうのは一つの プロセスを並列実行可能 
な部分に分割したもので，プロセスは いくつかの スレ 
ッドを寄せ集めたものである.たとえればこれは，複 
数のアプリケーションプログラムが複数の CPU で時 
分割に実行されるイメージである.スレッドの割り当 
ての運がよければ （？）， 一つの アプリケーションの各 
部分が別個の CPU に割り当てられて実行されることに 
なる.つまり，あるプロセスに限ってみれば ， CPU 
が ひとつの 場合よりも高速に実行できることになる. 

このように，マルチプロセッサ （ SMP ) において 
「処理が速い」というのには2通りの意味があるので 
注意が必要である.マルチプロセッサで速度を向上さ 
せようとしたらスレッド分割にせざるをえない. 

ところで，マルチプロセッサシステムで CPU の数 
をどんどん増やしていけばそれだけ処理速度が速くな 
るのか，という疑問がある.じつはそうならないこと 
がアム ダールの 法則 ( Amdahl's Law ) によって示唆さ 
れている （図 3). これは， 

改良後の実行時間=影響されない部分の実行時間 
+ (影響される部分の実行時間/改良の度合） 
というもので，上の式で「影響」を「並列実行丄厂改 
良」を「プロセッサの個数」に当てはめればよい•つ 



図2マルチプロセッサとキャッシュ 

バス速度，アクセス競合の点で，高並列マシンの集 
中共有メモリ方式は現実的でない.この場合，分散メ 
モリ方式を採らざるをえない.現実としては， 図2 の 
ように， SMP 構成で各プロセッサにキャッシュをも 
たせる方式が一般的である.キャッシュはプログラム 
から意識されないため， SMP でありながら，バス速 
度，アクセスの競合の問題を解決できる. 

NUMA において，キャッシュのコヒーレンシを保 
証するシステムは ccNUMA (Cache Coherent Non - 
Uniform Memory Architecture ) と呼ばれる.たとえ 
ば， Sun の EWS である SunFirel 5 K では，18組の4 
CPU からなる SMP モジュールを ccNUMA で結合し 
て性能を上げている. 

NUMA では，自分のメモリへのアクセス時間に比 
ベて，他の CPU のメモリへのアクセスが遅くなる傾 
向があり，それが採用の妨げとなっていた.しかし， 
現在では技術革新により3〜5倍かかっていたアクセ 
ス時間が平均で 1.5 倍，最悪でも3倍程度に縮まり， 
たいした問題ではなくなっている. 

• 並列処理の割り当て 

マルチプロセッサは OS の助けを借りて並列動作を 
行うことができる. CPU を複数並べただけでは性能 
向上は望めない.〇 S がプログラムをプロセスなりス 
レッドなりに分解して，各 CPU に処理を割り当てて 
実行させるのである. 

さて， SMP に対して OS がそれぞれのプロセッサに 
処理を割り当てる方法には2通りの方法がある.一つ 
はプロセス単位での割り当て，もう 一つは スレッド単 
位での割り当てである. 

プロセスというのは一つのアプリケーシヨンプログ 
ラムそのものであるから，これはアプリケーションプ 
ログラムごとに一つのプロセッサを割り当てるという 
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まり，どのようなアプリケーションプログラムでも並 
列に実行できない部分が存在する（前後関係の依存性 
がある）ので，並列化できる部分しか高速化できない 
というものである.並列処理を念頭に置く場合，性能 
向上は次の式で表される. 

速度向上比=1バ (1 - P ) + P / iV ) 

=旧実行時間/新実行時間 
並列化部分率（元の実行時間のうち，並列処 
理可能な実行時間の割合） 
iV : 並列化度（プロセッサの個数） 


^マルチプロセッサの 
' キャッシュ制御 


• マルチプロセッサのキャッシュ 

マルチプロセッサにおけるキャッシュは単ープロセ 
ッサと比べると複雑である.共有メモリのコピーがそ 
れぞれのキャッシュに存在するが，共有メモリと各キ 
ャッシュ間で一貫性（コヒーレンシ，または コン シス 
テンシという）を保証する必要があるからである.シ 
ステムにおいてコヒーレンシが保たれている状態をコ 
ヒーレントという. コ ヒーレントにおいては，あるプ 
ロセッサが任意のメモリ領域（共有メモリや他のキャ 
ッシュ全体）をリードした場合，常に最新のデータが 
リードできることが保証されなければならない.これ 
は，通常， CPU 自体のハードウェアで保証される. 

共有バスがバスネックにならないように，マルチプ 
ロセッサ構成ではライトバック方式のキャッシュを採 
用することが多い.この場合，各キャッシュにダーテ 
ィなデータ（キャッシュだけで書き換えられていて主 
記憶の内容と一致しないデータ）があることを許すが， 
この場合でも他のキャッシュと矛盾しないようにキャ 
ッシュ全体の状態を管理する必要がある.これは，あ 
るプロセッサのキャッシュ内容が書き換えられた場合 
に，そのことを他のキャッシュに通知することで実現 
する.この方式には次の2種類がある. 

► ライトアップデート方式 

あるキャッシュブロックの内容を書き換えた場合 
に，システム全体のキャッシュをヒットすれば，その 
最新のデータに更新する方式である.書き換えたブロ 
ックのアドレスとデータを，共有バスを通じて他のキ 
ャッシュに送る.これをアップデート要求という.ア 
ップデート要求を受けたキャッシュは，自身がその 
データを有していればそこを転送されてきたデータに 
変更する. 


► ライトインバリデート方式 

あるキャッシュブロックの内容を書き換えた場合 
に，自分以外のシステム全体のキャッシュがヒットす 
れば，そこを無効化する方式である.この場合，書き 
換えたブロックのアドレスを共有バスを通じて他のキ 
ャッシュに送る.これをインバリデート要求という. 
インバリデート要求を受けたキャッシュは，自身にそ 
のデータを有していればそこを無効化する. 

キャッシュへのライト時に共有バス上をデータが行 
き来するという点で，これらの方式はライトスルー方 
式と大差ないかもしれない•ライトスルー方式の場合 
でも，他のキャッシュにアドレスを送り，それがヒッ 
卜すればそのブロックを無効化する必要があるのは同 
様である.このような状況で，ライトバック方式とラ 
イトスルー方式のどちらのキャッシュヒット率が高い 
のかを考えると，はっきりいってよくわからない.こ 
の二つでは，感覚的にはライトバック方式のほうがヒ 
ット率が高いとは思うのだが.それにも増して，ライ 
トアップデート方式では，キャッシュを無効化する頻 
度が低い分，ヒット率が高いのは明らかである.ただ 
し制御は複雑である. 

ところで，キャッシュミス時にはキャッシュのリフ 
イルが行われるが，コヒーレンシを保つために，コ 
ヒーレントリードというバスサイクルを発生する.コ 
ヒーレントリードの発生を共有バス上に発見すると， 
各キャッシュはバススヌープ（キャッシュ状態ののぞ 
き見）を行う. 

もし，キャッシュにヒットするダーテイなブロック 
があれば，そのデータが最新のデータなので，そのキ 
ャッシュがコヒーレントリードのデータを返さなけれ 
ばならない（これがオーナーである.詳細は後述）.キ 
ャッシュにヒットするクリーン（主記憶とデータが一 
致している状態）なブロックがあれば，そこを無効化 
してもよいのだが，キャッシュの有効活用のために， 
その状態を「共有（シェアード）」に変更するだけで 
データはそのまま残しておく. 

余談ではあるが，上記のキャッシュのスヌープ方式 
は共有メモリ方式で使用される.共有メモリを使用し 
ない分散メモリ方式では，キャッシュのコヒーレンシ 
を保つためにデイレクトリ方式が使用される.これは， 
分散された各メモリごとに各メモリのコピーがどのプ 
ロセッサのキャッシュに存在するかをメモリ上のテー 
ブルに記録しておく方式である.この場合，キャッシ 
ュを スヌープしなくても，ディレクトリの内容を参照 
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するだけでインバリデートやアップデート対象のキャ 
ッシュを特定できる.しかしこの方式では，主メモリ 
容量の増大にともなってディレクトリの容量が大きく 
なるという欠点がある.そこで，バススヌープ方式と 
ディレクトリ方式を融合して効率よくコヒーレンシを 
保証する方法も研究されている. 

• キャッシュの状態 

ライトバック方式で コヒー レンシを保つために，キ 
ャッシュには次のような状態が定義されている.ある 
状態において，キャッシュに対してどのようなアクセ 
スが行われるかによって， コヒー レンシを保つために 
いろいろな挙動をする. 

1) 無効（インバリッド)/有効（バリッド） 

2) 不一致（ダーティ）/一致（クリーン） 

3) 共有（シェアード）/排他（イクスクルーシブ） 

4) 所有（オーナー）/非所有（ノンオーナー） 
オーナーとは，最新で有効なデータブロックが複数 

存在している場合にデータを供給する責任のある ブロ 
ックのことである.ダーティなラインが存在しなけれ 
ば主記憶，ダーティなラインが存在すればそのライン 
がオーナーである.その意味で，オーナーという特別 
な状態は不要である. 

ところで，キャッシュの状態にどのようなものがあ 
るかによって，キャッシュの方式にもいろいろな呼び 
名がある.ここでは，代表的な MOESI 方式と MESI 
方式に ついて 説明する.なお，キャッシュデータの共 
有を許さないのは MEI 方式と呼ばれる.これは，マ 
ルチプロセッサ機能を提供しない，通常の MPU のキ 
ヤツシュ状態（ライトバック方式）を示すのに使用さ 


ライトヒツ I 

( update )/ 

リードヒツ I 


れる. 

► MOESI 

この方式では，キャッシュコヒーレンシを M 
( Modified ) , 0 (Shared Modified ) , E ( Exclusive ), S 
( Shared ), I (In valid ), という五つの状態で制御する. 
この方式での状態遷移を図4に示す. 

• M (モデイファイド） 

ダーティともいう.主記憶と一致が取れていない状 
態.同じブロックはほかのキャッシュには存在しない. 

• 0(シェアードモデイファイド） 

主記憶と一致が取れていない状態.ほかのキャッシ 
ュに同じブロックが存在する.〇の由来は Owner か？ 

• E (イクス クルー シブ） 

主記憶と一致が取れている状態.同じブロックはほ 
かのキャッシュには存在しない. 

• S (シェァード） 

主記憶と一致が取れている状態.ほかのキャッシュ 
に同じブロックが存在する. 

• 1(インバリツド) 

無効な状態. 

► MESI 

この方式は MOESI 方式から〇状態を削除した方式 
である.シェアード状態のブロックにライトを行った 
場合，ライトインバリデート方式はインバリデート要 
求を発行し，自身は M 状態に移行する.ライトァッ 
プデート方式はァップデート要求を発行して，他のキ 
ャッシュの内容も更新する.この方式での状態遷移を 
図5に示す. 

M 0 SEI 方式にしても MESI 方式にしても，ライト 
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インバリデート，ライトアップデートの両方の方式を 
使用可能である.それぞれシェアード状態のブロック 
にライトヒットした場合に，アップデート要求，イン 
バリデート要求が発生する. 

ところで，〇状態を採用するとキャッシュの制御が 
複雑になるので， MESI 方式のほうが多用されている. 
代表的な例では， MIPS の R 4400では MOESI 方式と 
MESI 方式を選択できたが，後継の R 10000 では MESI 
方式のみとなっている. 

• MESI プロトコルによる動作例 
図6に MESI プロトコルによる動作例を示す . MESI 
プロトコルでは次のような状態遷移を行う. 

1) リードヒット 

ブロックが有効 ( M ， E ， S 状態）ならリードするだ 
けで状態は変化しない. 

2) リードミス 

他のキャッシュにヒットし，そこが M 状態（最新， 
排他）であれば，そのブロックを主記憶にライトバッ 
クする.同時にそのデータを（コヒーレント）リード応 
答として要求元に返す.状態は S 状態に遷移する（図 
6( a )). 他のキャッシュにヒットし，そこが E 状態ま 
たは S 状態であれば，リード応答は主記憶によって返 
される.状態は S 状態に遷移する〔図 6( b )， 図 6( c )〕. 
他のキャッシュにヒットしない場合は，リード応答は 
主記憶によって返される.状態は E 状態に遷移する 
〔図 6( d )〕. 

3) ライトヒット 

ブロックが M 状態ならそのまま上書きする.状態 
は M 状態のままである.ブロックが S 状態なら上書 


きを行い，状態を M 状態にする.同時にインバリ 
デート要求（ライトインバリデート方式を仮定）を発行 
し，他のキャッシュにヒットすれば，そのブロックを 
無効化( I 状態)する〔図 6( e )〕 •ブロックが E 状態なら 
上書きを行い，状態を M 状態にする.インバリ 
デート要求は発行しない〔図6⑺〕. 

4) ライトミス 

2) のリードミスと同じ動作を行った後， 3) のライ 
トヒット動作を行うのと等しい. 

3 プロセス間の相互通信の方法 

▲▲ 

• プロセス間通信の必要性 

マルチプロセッサシステムは互いにほとんど独立し 
て動く多数のプロセスの集まりである.独立している 
とはいえ，各プロセスは相互に直接 • 間接に連絡を取 
り合う必要が生じる.この場合，自由に動いているプ 
ロセスの動きをあるタイミングでそろえることを，同 
期を取るという.プロセスが連絡を取り合うには同期 
が必要で，連絡は次の二つの場合に必要となる. 

1) プロセス間の協力のため 

あるプロセスがほかのプロセスに仕事を依頼する場 
合，依頼したいという信号と依頼の内容を示すメッ 
セージを送受するしくみが必要である.これはプロセ 
ス間の待ち合わせであり，条件同期という • 

2) プロセス間の資源の競合を解決するため 

各プロセスで共有する資源は，たかだか一つのプロ 
セスでしか利用できないような排他制御が必要であ 
る.これを相互排除という. 


ライトヒツト 
ライトバツク 


インパリデート 
受信 


リ I ドミス I 
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図 6 MESI プロトコル 
による動作例 


第8章マルチプロセッサの基礎 


MPU1 MPU2 MPU3 MPU1 MPU2 MPU3 



( a ) リードミスで，他に同じプロックのコピー 
(Modified ) がある場合 


( b ) リードミスで，他に同じフロックのコピー 
(Exclusive ) がある場合 


MPU1 MPU2 MPU3 


MPU1 MPU2 MPU3 



( c ) リードミスで，他に同じフロックのコピー 
(Shared ) がある場合 


( d ) リードミスで，他に同じフロックのコピー 
がない場合 


MPU1 MPU2 MPU3 



A 


MPU1 MPU2 _ MPU3 _ 

ライトヒツト 


1 

1 

E—M 

? 

? 

A—A’ 


A 


( e ) Shared 状態でライトヒット 


( f ) Exclusive 状態でライトヒット 
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スピンウェイト 
または 

ビジーウェイト 



図7スピンロック方式 


• 同期のためのソフトウェア処理 

相互排除の問題をまず考える.マルチプロセッサシ 
ステムでは，共有バスが主記憶にアクセスする唯一の 
アクセス手段である.メモリの排他制御は，バスの使 
用権を獲得したプロセッサがメモリアクセスを独占 
し，ほかを締め出せばよい.この処理は不可分（アト 
ミック）なスワップ命令で簡単に実現できる. 
不可分とは，あるプロセスがメモリにアクセスして 


それを実現するもっとも単純な処理が，テストアン 
ドセットである.これは，ロック変数をリードしその 
値が0ならそこに1を書き込む.ロック変数が〇でな 
ければ何もしない•ロック変数の前の値が結果として 
返されるので，それが0ならロックが成功したことを 
示す. 0でなければロックは失敗である（ほかのプロ 
セスが使用中）.図7にテストアンドセットを利用し 
た相互排除を示す.ここで，ロック変数が0になるの 
を待つループをスピンウェイト，またはビジーウェイ 
卜と呼ぶ.そのため，この方式をスピンロック方式と 
呼ぶ. 

スピンロック方式は，他のプロセスがクリティカル 
セクション（共有資源を独占できる時間的空間的領域） 
を実行中は，同じ資源を使用しようとするプロセスが 
ループしながら待つ点が非効率である.スピンウェイ 
卜を行わない同期機構としてセマフォがある. 

セマフォとは，鉄道で用いられる腕木式信号機のこ 
とである.セマフォの実体は一種の共有フラグで，同 
期をとるプログラムどうしがこのフラグに注目し，フ 
ラグの変化に応じて処理を行って同期を実現する•構 
造化プログラミングの提唱者である Edsger Wybe 
Dijkstra は，セマフォに対する P 操作， V 操作という 
ものを定義した. P 操作は事象の待ち合わせ， V 操作 
は事象の発生（およびメッセージ）の通知を行う.セマ 
フォを実現する操作はフェッチアンドアッドと呼ばれ 
る.これはメモリに対する任意の数(負の数も可）の加 
算を不可分に行う. 

P 操作， V 操作の P ， V という名称の由来は Dijkstra 
の母国語のオランダ語にある . P は 「 prolagen 」 という 
「 proberen (試みる）」と 「 verlagen (減じる）」の合成語 
が語源である.また， P には 「 passeren (渡す）」とい 
う意味も含まれているという. V は 「 verhogen (増や 
す）」または「 vrygeven (解放する）」が語源である. 
由来を知っていれば，以下に説明するそれぞれの動作 


いる間にほかのプロセッサからのメモリアクセスがな 
いことをいう.実際には（バス）ロックという端子を活 
性化して外部回路に通知し，ハードウエア的にほかの 
プロセッサのアクセスを禁止する. 

このため各共有資源に対し，ロック変数を用意する. 
ロック変数が0の場合は，それに対応する資源が未使 
用，0でない場合は，それに対する資源が使用中であ 
ることを示す.プロセスはロック変数に0以外の値を 
早い者勝ちで書き込むことで，その資源を使用する権 
利をもつ. 


も理解しやすいであろう. 

セマフォ i は，共有資源 i について 定義されており， 
負の値も取るカウンタ Si と待ち行列 Qi からなる•こ 
れに対する P 操作， V 操作の流れを図8に示す.簡単 
にいえば， P 操作で資源が得られない場合は，その P 
操作を行ったプロセスは待機状態となり， Qi に格納 
され，後で起動されるのを待つ.これをサスペンド状 
態という. V 操作は待ち行列 Qi の中にあるプロセス 
を起動する. 

相互排除はセマフォのカウンタの初期値を1に設定 
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図8 

P 操作と V 操作 （ a ) 資源 i に対する P 操作 （ b ) 資源 i に対する▽操作 


図9 

サスペンドロック方式 


( ブ□セス A ) 


P(s) 


クリティカル 
セクション実行 


V(s) 


( ブ□セス巳 ) 





P(s) 


セマフォの変化 


丁待機(サスペンド） 
状態 


s=0 


s= — 1 


s=0 


I 

广 \ ディスパッチ 

し起動 j - 

"クリティカル 
I セクション実行 


待ち行列の変化 



/ 

Z 






プロセス B 





待機 (suspend) 




|プロセス B 


-0 

実行可能 
(wake up) 


することで実現できる.図9に示すように， P 操作で口 
ックを行い， V 操作でロック解除を行える.この場合， 
スピンウェイトは存在せず，プロセスをサスペンド状 
態にすることで待ち合わせを行う.この意味から，セ 
マフォを利用した相互排除をサスペンドロックと呼ぶ. 
相互排除では，一つのセマフォに対する P 操作と V 操 
作は同一のプロセス（プロセッサ）によって発行される. 

セマフォはカウンタの初期値を0に設定すること 
で，条件同期にも使用できる.図10に示すように， 
二つのプロセス間で，同じ資源に対する P 操作と V 操 
作をそれぞれ発行することで待ち合わせができる•こ 
の場合は，一つのセマフォに対する P 操作と V 操作は 
別個のプロセス（プロセッサ）によって発行される. 

セマフォを使ったプロセス間の通信（待ち合わせ）を 


利用する代表例として，生産者 • 消費者問題 ( producer - 
consumer problem ) がある.これは図 11 に示すよう 
に，生産者プロセス A が生産を行って次々に結果を 
主記憶に確保されたバッファに書き出していく.同時 
に，消費者プロセス B はバッファから結果を取り出し 
て何らかの処理を行い，不要になったバッファを返却 
するというモデルである.このとき，生産と消費の速 
度が同じとは限らないので，バッファが一杯なのに結 
果を書き込んだり，バッファが空なのに結果を取り出 
したりしないような考慮が必要である.それをどうす 
れば実現できるのかが問題である.この問題を，セマ 
フォを用いて解くと次のようになる. 

•生産者： P 1 :生産をする. 

P ( e ) で空きバッファを要求する. 
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s=0 


(プロセス A > ( プロセス巳 


P ( s ) 


s =— 1 


図 10 

条件同期(待ち合わせ） 


待 


Q(s 


V ( s ) 




(a) プロセス A が先行している場合 


図 


GOTO P 1 

•消費者： Cl : P ( r ) で結果入りバッファを要求する. 
バッファから取り出して処理する. 

V ( e ) でバッファを消費したことを通知する. 

GOTO Cl 

ここで， e は空きバッファを制御する セマフォ， r 
は結果の入ったバッファを制御するセマフォである. 
e の初期値はバッファの段数， r の初期値は0である. 
• 同期のためのハードウエア(命令セット） 

各 MPU のアーキテクチャでは，これまで説明して 
きた，不可分な（アトミックな）アクセスを実現するた 
めの最小限の手段を命令として提供している.これら 
をアトミック命令という.以下に，これらアトミック 
命令について述べる. 

不可分なアクセスの基本は，データをリードして変 
更してライトする，といったリードモディファイライ 
卜 （Read Modify Write = RMW と略す）が基本になる. 


プ□セ 



11生産者•消費者問題 


空きバッファに結果を格納する. 

V ( r ) でバッファに結果が入ったことを通知する. 
GOTO P 1 


s=0 


) 


ス A 




P ⑻ 




V ( s ) 


s =0 


.s= 


Q ( s ) 


(b) プロセス B が先行している場合 


CISC においては RMW はポピュラな動作なのでそれ 
を排他的に実行できればよい.具体的には， MPU の 
外部端子の LOCK 信号 ( MC 680 x 0 では RMC 端子）をア 
クティブにして，それがアクティブの間は外部回路で 
ほかのプロセッサからのバスへのアクセスを禁止する 
ことである. LOCK 端子でバスの競合を防ぐことが目 
的なので，バスサイクルが常に共有バスに発生する必 
要がある.つまり，ロック変数は非キャッシュ領域に 
配置する必要がある.あるいはキャッシュ領域に置く 
場合は，そこがキャッシングされないようにモニタし 
なければならない.しかし，実際には，プログラマが 
それを考慮する必要はない. 

たとえば， MC 680 x 0 アーキテクチャでは TAS 命令， 
CAS 命令， CAS 2 命令の RMW アクセスにおいては， 
ハー ドウエアによって自動的に データ キャッシュが必 
ずミスするようになっている.このとき，バースト転 
送は行われないが，キャッシュの内容は更新される. 

x 86 アーキテクチャにおいて， Pentium までの P 5 
アーキテクチャでは LOCK 端子がアクティブなバス 
サイクルはキャッシングされない.つまり，最初がキ 
ャッシュミスを発生する領域(無効状態)では永久にキ 
ャッシングされず，常にバスサイクルが発生するわけ 
である. PentiumPro 以降の P 6 アーキテクチャでは， 
キャッシュ領域に対するアトミック操作は LOCK 端 
子をアクティブにはせず，キャッシュロックという状 
態になる.これは，いわゆるキャッシュを追い出さな 
いキャッシュロックとは異なるので注意が必要であ 
る.これはほかのプロセッサが同じキャッシュライン 
のライトバックを行うときにインバリデートされてコ 
ヒーレンシを保つものらしい（詳細はよくわからない 
が，キャッシュロック領域は自動的にバススヌープ対 
象となるということなのだろう）.非キャッシュ領域 
に対するアクセスでは P 5 と同様に LOCK 端子をアク 


メッセーシ 


事象待ち 




事象待ち 
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リスト1 

テストアンドセット 


Test-and-Set(address, bit_position) 


{ 

Lock(); 

ロック端子をアクティブ 

temp — Memory[address].bit_position ； 

共有変数から指定ビットをリード 

if(temp == 0) then 


Memory[address].bit_position 1 ； 

リード値が0なら1をセット 

endif 


UnLock(); 

ロック端子をインアクティブ 

Condition_Code 4 - temp; 

前の値を返す 


リスト2 

コンペアアンドスワップ 


Compare - ana-Swap(address, cmp_data. 

new_data) 

{ 

Lock(); 

□ック端子をアクティブ 

temp Memory[address]; 

if (temp == cinp_data) then 

共有変数をリード 

Memory[address] 4 - new—data; 
endif 

比較値と等しければ新しい値をセット 

UnLock(); 

ロック端子をインアクティブ 

cmp 一 data ♦- temp ； 

} 

前の値を返す 


リスト 3 

フェッチアンドアツド 


Fetch-and-Add(address , e) 


{ 

Lock(); 

ロック端子をアクティブ 

temp ■*- Memory [ address ]; 

共有変数を 1 J _ ド 

Memory [ address ] — temp + e ； 

値 e を加える 

UnLock(); 

ロック端子をインアクティブ 

return temp ； 

} 

前の値を返す 


ティブにしたバスサイクルが発生する.資料には 
「 P 6 以降はバスエージエント（チップセット）の制御に 
より，ほかのプロセッサがバスをアクセスするのを制 
限する」とあるので， LOCK プリフィックスはあまり 
利用されないらしい.キャッシュへの排他アクセスは 
MESI プロトコルでコヒーレンシを保証する. 

一方， RISC ではロードとストアを別個の命令で実 
現するので，1命令での RMW 操作は不可能である. 
これには， RMW 専用の口ード命令とストア命令を用 
意して対応する.後で説明する RISC 方式の場合，口 
ック変数はキャッシュのコヒーレンシを利用するの 
で，キャッシュ領域に置かなければならない.ただし， 
i 860 や88000などの初期の RISC では， CISC と同様の 
RMW でアトミック操作を行う命令をもっていたよう 
である. 

►テストアンドセット (Test And Set ) 

通常，1ビットのロック変数に対する RMW 命令で 
ある.共有変数のアドレスとビット位置を入力として 
次のように定義される.ビット単位ではなくワード単 
位に RMW を行う場合もある（リスト 1). 

この操作は， 680 x 0 アーキテクチャでは， 

TAS <ea> 

として提供されている.ただし， TAS ではデスティ 
ネーシヨンの元の値にかかわらず，必ず1(デステイ 


ネーシヨンのビット 7) をセットする.元の値は条件 
フラグに反映される.元の値が0であろうが（ロック 
されていない場合），0でなかろうが(すでにロックさ 
れている場合），その結果は必ず0以外となるので， 
この動作で十分である. 

► コンペアアンドスワップ (Compare And Swap ) 

この操作はテストアンドセットの発展形である•比 
較する対象が0ではなく任意の値となる.具体的には， 

1回前の共有変数の値を記憶しておき，それと今回の 
値と比較し，値が同じならば，ほかのプロセッサから 
のアクセスがないとみなされるので，新しい値を共有 
変数にセットする（リスト 2). 

この操作は， 680 x 0 アーキテクチャでは， 

CAS. {B , W, L} Dc, Du, <ea> 

として提供されている.なお，マニュアルでは同期操 
作のほかにリンクリストのボインタを付け替える操作 
が CAS 命令の代表例として挙げられている. 
►フェッチアンドアッド (Fetch And Add ) 

この操作は共有メモリに対する不可分な加減算を実 
現する.セマフォに対する P 操作と V 操作の一部を簡 
単に実現できる（リスト 3). 

この操作を命令として提供するアーキテクチャは少 
ない.しかし，これはコンペアアンドスヮップ命令で 
実現できる.たとえば， 680 x 0 では CAS 命令を使用 
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リスト 4 

ロードリンクト/ストアコンデイ 
シヨナル 


Load-Linked(address) 


{ 

temp ■•- Memory [address] ; 

共有変数をリード 

LLbit 一 1; 

} 

LLbit を 1 に設定 

Store-Conditional(address, temp) 

f 

l 

if(LLbit ==1)then 


Memory[address ] temp; 

LLbit が：!なら値を共有変数にライト 

endif 


temp LLbit; 

} 

LLbit を返す 


して次のように記述する. 

move.w 0 (aO) , dO 
loop : 

move. w dO , dl 

add.w 1,dl 

cas.w dO, dl,0(aO) 


( ERET ) の実行によって LLbit をクリアするように 
なっていることが多い. 

つまり，このような事象が発生すると LLbit が0に 
クリアされるようになっている.このような RMW の 
実現方法は特異ではない.たとえば， PowerPC にお 
いても同期を実現するために， 


bne loop 

この例はスピンロックになるのが気に入らないが， 
まあよしとしよう. 

► 口ードリンクト （Load Linked )， ストアコンディシ 
ヨナル (Store Conditional ) 

これは MIPS アーキテクチャで導入された命令であ 
る. MIPS の産みの親である Hennessy 教授によると， 
初期 MIPS のアーキテクトである Earl Killian の発案 
という . LL (Load Linked ) 命令と SC (Store Condi 
tional ) 命令はキャッシユ領域への不可分な RMW のた 
めの基本操作を提供する.この機構は MPU 内部の 
LLbit という特別な資源を介して，共有変数のリード 
を行ったという状態を記憶しておく（リスト 4). 

つまり，あるプロセッサでの LL 命令の実行それ自 
体では何も起こらず，同じ共有変数に対するほかのプ 
ロセッサからの SC 命令の実行は失敗する.つまり， 
ライトは行われない.同じプロセッサからの SC 命令 
には成功する場合と失敗する場合がある. SC 命令の 
ライトが行われる場合は不可分な RMW が成功したこ 
とを示す. SC 命令が成功したか失敗したかは ソース 
オペランドに格納される値 （ LLbit そのもの）が'1であ 
るか0であるかを テス トする こ とで知る こ とができ 
る.なお， LL 命令と SC 命令の実行の間に，次のいず 
れかの事象が発生すると SC は失敗する. 

•指定したメモリ領域への，他のプロセッサからのコ 
ヒーレントライト（インバリデート要求，またはア 
ップデート要求が発行される）が行われた場合. 

• LL / SC を実行するプロセッサに割り込み/例外が発 
生した場合.この実装は割り込みからの復帰命令 


LWARX (Load Word, and Reserve Indexed) 
STWCX (Store Word Conditional Indexed) 
というロー ド命令とストァ命令の組を提供してい 
る. PowerPC では LLbit の代わりにリザべーシヨン 
( Reservation ) という MPU の内部資源を利用する.考 
え方は MIPS とまったく同じである.これらの命令を 
使って，フェッチアンドアツドを実現すると次のよう 
になる. 


top 

lwarx r9=i(r2) 
ai r9=r9+l 


# i を□ードして予約 

# i をインクリメント 
#条件付きストァ 

#ストア失敗は分岐 


stwcx 1 (r2)=r9 
be top, crO 
►バスロックプリフィックス 


x86 アーキテクチャでは不可分なアクセスを実現す 
るための専用命令はない.しかし， LOCK というプリ 
フィックスを提供し，（基本的にはすべての）命令の 
RMW のメモリアクセスをバス a ック付きで行える. 
ただし，アーキテキクチヤで LOCK プリフィックス 
の動作を保証しているのは表1の命令とアドレシング 
の組み合わせのみである. 

マニュアルに よると， この 組み合わせに違反した場 
合は例外が発生するとなっている.なお， XCHG 命令 
に関しては LOCK プリ フィッ クスなしでもバス ロック 
信号をアクティブにする. Pentium 以降で追加された 
xadd (exchange and add), CMPXCHG (compare and 
exchange), CMPXCHG8B (Compare and exchange 8 
bytes) は， LOCK プリ フィッ クスと組で使用されるこ 
とを前提とした命令である（単独でも使えるが). 
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x 86 アーキテクチャにおいて LOCK プリフィックス 
を使用すれば，テストアンドセット，フェッチアンド 
アッドの実現は簡単で，それぞれ次のようになる. 
LOCK : BTS mem, imm 
LOCK : ADD mem , imm 

なんのことはない.ビットセット命令や加算命令に 
LOCK プリフィックスを付加しただけである. 

► 各アーキテクチャのアトミック命令 
表 2 に MPU の各アーキテクチャでどのようなアト 
ミック命令が定義されているのかをまとめておく.こ 
れをみると，テストアンドセットでお茶を濁している 
(?) ものが大半である.最小限の機能さえ提供してお 
けばソフトウヱアが何とか頑張ってくれるだろうとい 
う，いかにも RISC 的な発想なのかもしれない. 


4マルチプロセッサの構造 


• マルチコアプロセッサのいろいろ 

性能向上のため，2〜4個の CPU コアをマルチプロ 
セッサ構成にして1チップに集積することが最近の流 
行である.とくに，性能が要求されるネットワーク処 
理用途のプロセッサに多い.そもそも，このような1 
チップマルチプロセッサの発想は昔から存在する.有 
名なところでは， Intel が1989年に2000年のマイクロ 
プロセッサの姿を予想した Micro 2000であろう.これ 
は，大容量のキャッシュの周りに4個の汎用プロセッ 
サ，2個のベクトルプロセッサ，1個のグラフィック 
処理プロセッサを1チップに集積している. 2000年時 
点で，現実は Intel の予想に追いついていないが，そ 
の姿は見え始めている. 

► IBM Power4 


IBM は1999年の Microprocessor Forum で1チップ 
に二つの CPU を集積する Power 4 を発表した.各 CPU 
は（瞬間的な）5ウェイスーパースカラで， 1 GHz 以上 


表1 LOCK プリフィックスの動作を保証している命令 

( x 86) 


ADC ， ADD, AND. BT 

mem, reg/imm 


BTS, BTR, BTC. OR 

mem, reg/imm 


SBB, SUB. XOR 

mem, reg/imm 


XCHG 

mem, reg 


XCHG 

reg, mem 


DEC, INC, NEG, NOT 

mem 


XADD, CMPXCHG 

mem, reg 


CMPXCHG8B 

mem 



の周波数で動作する.さらに， Power 4 を4個搭載し 
た MCM ( Multi-Chip Module ) を作成し，それを4個 
SMP 結合して32ウェイ ccNUMA を構成して高速化 
を図るという. 2001年10月に IBM は Power 4 を採用 
した eServer p 690 を発表した. 

これについては詳細を後述する. 

► NEC MP98 

2000年の ISSCC (世界的権威のある国際固体素子回 
路学会）では， NEC が V 800 プロセッサを1チップに4 
個集積した MP 98 を発表している（図 12 ). これは 
lGIPS(Giga Instructions per Second ) の性能を達成す 
るために，各プロセッサの性能を1/4の 250 MIPS 程 
度として，消費電力を 1 W に抑えている点が興味深い. 
各プロセッサは2ウェイスーパースカラなので，理論 
上は 125 MHz 動作で大丈夫だ. MP 98 は低消費電力を 
実現するため，この分野にありがちなネットワーク処 
理よりも，モバイル端末を用いたインターネットへの 
接続，自動通訳，画像処理などを目的としている.専 
用並列化コンパイラによる音声認識プログラムを用い 
たベンチマークでは，1プロセッサ動作時と比較して， 
約3倍の性能向上を達成したという.なお， MP 98 は 
アーキテクチャを ARM に変更して世界進出をねらっ 
ているらしい. 

事実， NEC エレクトロニクスと ARM 社は，2003 
年10月20日に業務提携を発表し，協同して ARM 11 


表2各アーキテクチャのアトミック命令 


—キテクチヤ 
方式 、、へ 

x86 

680x0 

MIPS 

ARM 

SH 

PowerPC 

SPARC 

Alpha 

TEST and SET 

LOCK 

BTS 

TAS 


SWAP 

TAS 


LDSTUB 

SWAP 

PAL コードで実現 

COMPARE and SWAP 

LOCK 

CMPXCHG 

CAS 





CASA* 

CASXA* 

PAL コードで実現 

FETCH and ADD 

LOCK 

ADD 







PAL コードで実現 

LOAD LINKED 

STORE CONDITIONAL 



LL 

SC 

LDREX** 

STREX** 


LWARX 

STWCX 




*) SPARC V9 以降定義 **) ARM v6 以降定義 
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図 12 NEC MP98 のブロック図 
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コント □— ル 
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CPU スイッチ 


SRAM 

4チヤネル 
DMA 


HyperTransport 

コント□ーラ 


SysAD 

コントローラ 

イ 






J X 




HyperTransport 

インター フエー ス 


SysAD パス 


割り込み 


図13 

PMC-Sierra RM 9000 x2 
のブロック図 

をマルチプロセッサ化することとなった. NEC エレ 
クトロニクスは SMP 技術を提供するとなっているが， 
これは MP 98 で培われたものであることは想像に難く 
ない， 

► PMC-Sierra RM 9000 x 2 

2001年の Embedded Processor Forum では PMC - 
Sierra 社（旧 QED ) が RM 9000 x 2 を発表した(図 13) • 
RM 9000 x 2 は，その名称のとおり，64ビット MIPS プ 
ロセツサである RM 9000を2個1チップに集積した MPU 


である. RM 9000 自体は 1 GHz で動作する7ステージ 
パイプラインの2ウェイスーパースカラである.パイ 
プラインを従来の5ステージから7ステージに変更し 
たことで，同じ製造プロセスであっても，67%の高 
速化が実現できる.1次キャッシュは命令，データ， 
それぞれ 16 K バイトであり，2次キャッシュは 256 K バ 
イトのユニファイドキャッシュである. 2次キャッシ 
ュは MOESI プロトコルを採用し，ヒット率の向上を 
図っている.また，プロセス間同期のために，従来の 



DDR SDRAM 


イ 

8K; 




□ I カルパス 
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JTAG 


シリアル 

インターフェース 


シリアル 

インターフェース 


Dual 

SMBus 


GPIO / 

割り込み/ 

PCMCIA 


デバッグ/ 
パスト レース 


DMA 


DMA 


1/〇フリッジ 


□— カルパス 
& 

Flash I/O 


SB -1 

コア 


DMA 


10/100/ 

1000 

MAC 


SB -1 

コア 


256ビッ I 


Z 巳 bus 


DMA 


10/100/ 

1000 

MAC 


FIFO 


512 K パイト 
L 2 キャッシュ 


DMA 


10/100/ 

1000 

MAC 


FIFO 


データ 

ムーパ 


DDR 

メモリ 

コント□ーラ 


PCI ホストブリッジ 


32ビット 
PCI 


HT 

ホスト 
ブリッジ 


図14 Broadcom BCM1250 のブロック図 


LL / SC 命令のほかに，不可分にセット/クリア可能な 
ハードウヱアレジスタと不可分なカウンタを提供する. 

► Broadcom BCM 1250 

Broadcom 社も， SiByte 製の MIPS 64 プロセッサで 
ある SB -1 を2個集積する BCM 1250( 図1 4) を発表して 
いる. 1 GHz で動作し，そのときの性能は4400 MIPS 
という.しかも， 800 MHz 動作時の消費電力が8〜10 
W と，このクラスの MPU としては非常に小さいのが 
特徴である.マルチプロセッサバスや 512 K バイトの 
2次キャッシュを内蔵するなど， RM 9000 x 2 への対抗 
意識がみてとれる. 

► その他 

このほかに， HP の PA -8700 の後継機種である Mako 
や SGI の MIPS プロセッサの最上位機種である R 18000 
も二つの CPU を1チップに集積するデュアルプロセッ 
サになるといわれている.デュアルプロセッサはこの 
ように性能向上のかぎとなる技術になりつつあり，最 
近ではチップマルチプロセッサ （CMP : Chip Multi - 
Processor ) という用語すら生まれている. 

十数年前から，1チップマルチプロセッサは MPU 
の最終形態とされてきた.これらを採用する MPU が 
ちらほらと現れてきたということは， MPU の性能向 
上がそろそろ限界に達しつつあることを示している 
のかもしれない. Sun もデュアルプロセッサの Ultra 
SPARC IV を2003年下半期に発表している. 

余談ではあるが， RM 9000 x 2 の消費電力はかなり大 
きく（といっても， 20 W 程度だと思われるが），組み 
込み用途には向かないらしい.そこで， PMC-Sierra 
は RM 9000 xl という CPU を1個のみ有効にした MPU 
を積極的に販売しているようだ. CMP は組み込み用 


途に本当に必要なのかどうかを考えさせるエピソード 
である. 

•マルチスレッド 

マルチプロセッサは複数の MPU でプログラムを実 
行する方式であるが， 一つの プロセッサをマルチプロ 
セッサのように見せかける技術をもつ.それがマルチ 
スレッドである.ソフトウェア （ OS ) からは二つ以上 
のプロセッサがあるように見えるので，従来のマルチ 
プロセッサ用の処理をそのまま適用できるのがミソで 
ある. . 

マルチスレッドとは， MPU のレジスタファイルの 
組を複数用意し，複数のスレッドを同時実行させるし 
くみである.1チップマルチプロセッサとの違いは， 
キャッシュや演算器などのハードウヱア資源が共通で 
あるという点である.当然，複数のスレッド間でハー 
ドウェア資源の取り合いが生じるので，純然たるマル 
チプロセッサよりも効率は悪い.しかし，ハードウェ 
ア規模は小さくなる. 

マルチスレッドでは，キャッシュミスなどの待ち時 
間を利用して別のスレッドを実行する.こうすること 
により，プロセッサの待ち時間を最小に抑えることが 
できる.もっとも， CPU コア単体では，命令ストリー 
ミングやノンブロックキャッシュにより，キャッシュ 
ミスによるペナルティは少なくなっている.それより 
も，周辺ユニットとの間の I / O やメモリバスの割り当 
て待ちで浪費する時間のほうが多い.いずれにせよ， 
MPU のパイプラインはどこかで資源の待ち合わせが 
必要になる.その待ち時間を他のスレッドに割り当て 
るわけである.要するに，マルチスレッドは，マルチ 
タスク OS がソフトウエアで実現している処理を 
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MPU のハードウェアで実現するものなのである. 

マルチスレッドの欠点としてスピンロックの問題が 
ある.あるスレッドがスピンロック待ちでメモリをア 
クセスし続けていると，ハードウヱア資源が解放され 
ないので，別のスレッドの実行ができない.これを回 
避するためには同期処理のやり方を根本から変更しな 
ければならない.たとえば，割り込みが来るまで 
CPU (正確にはそのスレッド）を停止させる専用命令 
を利用するなどの方法が必要である.この制限はかな 
り致命的であり，マルチスレッド対応の MPU の性能 
を上げられない理由の一つとなっているようだ. 

マルチスレッドには，キャッシュミスなどで長時間 
待つことが明らかな場合に，別プログラムの実行に切 
り替える Vertical Multi Threading という方法と，常 
に複数のプログラムから命令を取り出し，ごちゃまぜ 
に実行する Simultaneous Multi Threading という方法 
がある.ハードウェア構造は Vertical Multi Threading 
のほうが簡単であるが，命令の実行効率は Simultane 
01 is Multi Threading のほうが勝っている. 

マルチスレッド技術をプロセッサの製品ロー ドマッ 
プに載せているメーカーは多い.とくに Alpha を有し 
ていた Compaq と PowerPC の IBM が最先端を行って 
いる.しかし，現実にはハードウヱア構造を単純にす 
るために1チップマルチプロセッサのほうが好まれる 
傾向にあるようだ.マルチスレッドにしろ，1チップ 
マルチプロセッサにしろ，利用できるハードウェアの 
量から考えると当面の並列度は2〜4である. 

• ハイパースレッド （ Intel のマルチスレッド） 

2001年8月の IDF において Intel は2002年に登場の 
Pentium 4( Foster ) で2ス レッ ドの Simultaneous Multi 
Threading を実装予定と発表した.実際にデモも行わ 
れた（経験的に IDF のデモは当てにならないが）.こ 
の場合の性能向上は30%程度だという. Intel はこの 
マルチス レッ デイングを ハイパースレッ デイング 

( Hyper - Threading ) と呼んでいる. Intel の方式は命 
令デコード時にスレッドを切り替える Simultaneous 
Multi Threading 方式らしい. Xeon は基本的に SMP 
構成のデュアルプロセッサなので，それぞれのプロセ 
ッサがハイパース レッ デイングを行うと，ソフトウ ェ 
アからは四つのマルチプロセッサに見える. 

このマルチスレッデイングは Compaq から譲渡され 
た Alpha 技術の産物とみる専門家も多いようだ.噂に 
よれば，じつは Pentium 4 は最初の Willamette ですで 
にハイパースレツデイング機能を内蔵していたとい 


う. Pentium 4 のパイブラインが空きすぎて IPC が低 
いのはハイパースレッディング機構に備えてと推測す 
るアナリストもいる.それが特許の問題で公表できな 
かったのだということらしい. Alpha 技術とともにマ 
ルチスレッディングの特許を獲得した Intel が，晴れ 
て Foster での内蔵を表明したのだとか. 

この問題の答えは Intel 自身によって明確にされて 
いる. Pentium 4 の NetBurst は約10年という期間を 
見据えたアーキテクチャであり，ハイパースレッディ 
ングもその一環である. Willamette ではすでに実装 
されている（完動するか否かは不明）が実行できないよ 
うになっているらしい. Foster と Willamette は同一 
のダイ（キャッシュサイズは異なる）だという . Alpha 
技術との関連はアプローチが異なり無関係だそうだ. 

Foster の後継で2002年に OEM 評価用に出荷された 
Prestonia コアの Pentium 4 での ハイパースレツデイン 
グのべンチマークに よる性能評価結果が某サイトに掲 
載されていた.それによると ハイパースレッディング 
を許可すると平均的に39 %程度の性能向上である. 
Dhrystone や Whetstone では2倍程度の性能向上であ 
るが， メモリのスルー プットに関しては33%程度性 
能が低下する. マルチメディア 命令の ベンチマークで 
は性能に変化はなかった.まあ， Intel の公表程度の性 
能向上であるが，本当のところは正式な Prestonia 版 
Xeon が登場するまではわからない.なお ， IDF 2002 
Spring によると， Prestonia 版 Xeon は デュアルプロ 
セッサ専用の廉価版 「 XeonDP 」 として，動作周波数 
1.8 G , 2 GHz , 2.2 GHz の3種類が登場するらしい. 

一方，「本業」の Pentium 4( Foster ) ベースの 「Xeon 
MPJ は2002年3月にドイツで開催された CeBIT で正 
式発表された.サーバ用ということで SMP サポート 
はもちろんであるが'， 512 K バイトまたは 1 M バイトの 
L 3 キャッシュと ハイ パースレッディング機能を内蔵 
する.動作周波数は，1.4，1.5， 1.6 GHz の3種類で， 
単体の Pentium 4( Northwood ) が 2.2 GHz となっている 
のに対して控えめである.性能は Pentium ffl ベースの 
Xeon /900 MHz に対して 1.6 GHz 版で30 %の向上らし 
い.実際のベンチマークでも同様の数値が出ている. 
フロントサイドバスの周波数も 400 MHz に向上し，動 
作周波数も78%向上しているのに，その程度の性能 
向上に留まるのは， Pentium 4 の IPC が Pentium DI に 
比べて低いためであると想像される.ただし，ソフト 
ウェアも ハイ パースレッディングには未対応のような 
ので，将来的にはもっと性能向上するかもしれない. 
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表3 Intel プロセッサの分類 


シングルプロセッサ 

Xeon (DP, MP) 

MPU のカテゴリ 

Pentium 

Pentium Pro 

Pentium 

Pentium II 

Pentium n Xeon 

Pentium II 

Katmai 

Tanner 

Pentium ID 

Coppermine 

Cascades 

Pentium III 

Tualatin 

Pentium HI-S 

Pentium ID 

Willamette 

Foster 

Pentium 4 

Northwood 

Prestonia (DP) 
Gallatin (MP) 

Pentium 4 

Prescott 

Nocona(DP) 
Potomac (MP) 

Pentium 4 
(Pentium 5) 

Tejas 

Jayhawk (DP) 
Tulsa (MP) 

Pentium 4 
(Pentium 5) 


2002年11月14日， Intel はハイパースレッデイング 
を（公式に）実装する Pentium 4/3.06 GHz を発表した. 
ハイパースレッデイングが利用可能なほかは，従来の 
Pentium 4 のクロックアップ品とあまり変わらない. 
この Pentium 4- HT の発表と同時に，各 Web サイトで 
はベンチマークテストが積極的に行われた.その結果 
は，ハイパースレッデイングを ON にすると10%から 
18%程度の性能向上だった.当初の見込みよりはやや 
低めであるが， OS 側の対応が完全でないせいもあるの 
だろう.また，定番の rSYSmark 2002」や 「3 Dmark 
2001 SEJ では，ハイパースレッデイングを ON にし 
ても，まったく性能向上しなかったという.ハイパー 
スレッデイングがまだまだこれからの技術であること 
を窺わせる結果だ. 

当初，ハイパースレッデイングとしては Pentium 4 
の 3.06 GHz 版のみを匂わせていた Intel であるが， 
2002年の11月中旬には口ードマップの変更を行って 
いる.つまり，2003年の 2 Q には 2.40/2.60/2.80/3.20 
GHz のハイパースレッデイング対応の Pentium 4 を投 
入するとしている.これは AMD の Athlon 64 の発表 
を受けて， Pentium 4 シリーズの性能面のてこ入れを 
図ったという見方が大勢である. 

5マルチプロセッサ結合の実際 

• Xeon の場合 

Intel の Pentium 系プロセッサにはいろいろな種類 
があり，すぐには理解できない.基本的にはシングル 
プロセッサを SMP 対応にすることでマルチプロセッ 
サとしてサーバ向けに提供している.最近では，その 
ブランド名はおしなべて Xeon となっている.表3に 
PC 用シングルプロセッサ （ Hyper - Threading を含む） 



図15各 CPU の接続 


とサーバ用デュアルプロセッサ （ DP ) とマルチプロセ 
ッサ （ MP ) との対比を示す.文献を読むときの参考に 
してほしい. 

なお， Intel では Tulsa がデュアルコアになることを 
2003年秋の IDF で発表している.ただし ， Hyper 
Threading の実装は当然なので，ソフトウェアからは 
4 CPU に見える. 

► 接続方法 

Xeon の M 版は，4個の CPU を図15のように， BR 0# 
〜 BR 3 #(Bus Request ) という4本の端子で相互に結 
合する.リセット時に， i 840 などのチップセットであ 
る優先順位づけエージェント (Priority Agent ) が 
BREQ 0# をアサートし，各 CPU に CPU 番号 (Agent 
ID ) を通知する.その後， BR 0# は出力， BR 1# 〜 
BR 3# は入力端子として働き，これらが Priority 
Agent からの バス 要求信号である BPRI # とアービト 
レー シ ヨンを 行い， CPU は バスの 使用権を獲得できる. 

バスを使用したい CPU は BR 0# をアサートして， 
その旨をほかの CPU に通知する（リセット時は BR 0# 
をアサートされた CPU がバスの使用権をもっている）. 
このとき，その CPU の優先順位が一番高い状態にあ 
れば，バスの使用権を獲得できる.そして， BR 3# が 
アサートされている CPU が次に高い優先順位をもつ. 
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図 16 APIC の接続 


直前にバスを獲得していた CPU は BR 1# がアサート 
されることになり，優先順位がいちばん低くなる.こ 
のように，各 CPU は公平（いわゆるラウンドロビン方 
式）にバスの使用権を獲得できるようになっている. 
また ， Priority Agent からのバス要求は常に最高の優 
先順位をもっているので， BPRI # がアサートされた 
場合は，各 CPU はただちにバスを明け渡す- 

また， CPU はバスの使用権を獲得すると， AD 20 と 
AD 21 に Agent ID を出力する.これにより，現在バ 
スの使用権をもっている CPU を知ることができる. 

Xeon の DP 版では， BR 2# と BR 3# は（公式には）使 
用できない.そのため接続方法としては，二つの 
CPU で BR 0# と BR 1# をクロスして接続することにな 
る. BR 2# と BR 3# 自体は隠し機肯 g としてチップには 
存在するようなので， DP 版でも 4 CPU 構成の接続に 
はできるらしい（もちろん，メーカーの保証外).しか 
し，その場合でも， BIOS の変更 ( CPU の初期化など） 
が必要になるだけでなく， CPU 自体が2や3という 
Agent ID に対応していないらしく，実際に動作させ 
ることは不可能なようである. 

► APIC とハードウエア割り込み 

Intel の SMP 仕様では，割り込みによって動作する 
CPU を決定するので APIC (Advanced Programmable 
Interrupt Controller ) の存在が欠かせない.チップセ 
ットに内蔵された IOAPICd /〇 APIC ) と CPU に内蔵 
されたローカル APIC でハードウエア割り込みを拡張 
して，各 CPU に割り込みを割り振るようになっている. 

Intel は1994年4月に，マルチプロセッサ向けの 
アーキテクチャとして MPS (Multi Processor Specifi 
cation ), およびそのための割り込みコントローラと 
して APIC (Advanced Programmable Interrupt Cont 
roller ) を発表した. 

APIC は，初期の段階では，実際に割り込みを受け 


付ける部分 ( I / O ユニット）と，そこからの割り込みを 
CPU 側で受け付ける部分（ローカルユニット）とに分 
けられていた.しかし，中期の Pentium ( P 54 C ) 以降 
では，ロー カル ユニット はローカル AF * IC として CPU 
に内蔵されている（図 16). これらが ， ICC (Interrupt 
Controller Communication ) バスを通じて結合される. 
APIC は周辺機器から通知されるハードウェア割り込 
みを，それらが処理されるべきプロセッサに割り振る 
働きをする. 

APIC を使用すれば SMP 構成を容易に実現できる 
が， APIC は Intel が特許を所有している技術であるた 
め，昔は，他の CPU ベンダー （VIA Technologies や 
AMD など）は，これを利用できなかった.その代わ 
り， VIA や AMD では，オーブンな技術である Open 
PIC 標準 （1995 年発表）をサポートしていた.しかし， 
〇 penPIC にしたがったシステムを提供するメーカー 
はなく，互換 MPU ではマルチプロセッサは不可能と 
いうのが常識になっていた.ところが，現在は AHC 
が工業標準 ( ISA ) として公開され， Intel の特許を侵害 
しない範囲内でなら互換 MPU メー カーやチップセッ 
トメーカーが実装できるようになっている. Intel の 
MPU の競合品である Athlon においても，初期モデル 
を除き， APIC が実装されている. 

• R 4400 MC の場合 

R 4400 MC は， MIPS 社の開発した R 4400のマルチ 
プロセッサ対応版の MPU である.他の R 4400と比べ 
て，キャッシュのインタペンション（スヌープ）要求， 
インバリデート要求，アップデート要求，コヒーレン 
トリード/ライト要求をサポートしている. 

図17に4個の R 4400 MC を用いたマルチプロセッサ 
システムの構成例を示す.各 R 4400 MC は L 2 キャッシ 
ュと外部エージェント（制御用 ASIC ) でサブシステム 
を形成している.これが，システムバスを介してメイ 
ンメモリを共有する.これは典型的な SMP 構成であ 
る. 

外部 エージェントは，プロセッサからの 要求を シス 
テムバスのトランザクションとして転送し，システム 
バスからのトランザクションをプロセッサへの 要求に 
変換する.外部 エージヱントがシステムバスを 使用す 
る場合は，まず， システムバスの 使用権を獲得する必 
要がある. システムバスの 使用権を獲得す るまでの 間， 
プロセッサからの 要求 は 待機状態になる. 

► ロードおよびストア 

プログラムのリード/ライト要求に対して L 1 キヤツ 
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図17 

R 4400 MC を4個使った 
マルチプロセッサシス 
テム構成例 


サブシステム1 
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外部 
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ーパスアービタ 



メインメモリ 


シュと L 2 キャッシュがミスすると， R 4400 MC はコ 
ヒーレントリード要求を発行する.それを受けて，外 
部エージェントは，システムバスに対してコヒーレン 
トリード要求を発行する.残りの三つの外部ェージェ 
ントは，そのリード要求を受けて，自身が接続する 
R 4400 MC への外部インタベンシヨン要求に変換する. 
そして，その結果（対応するキャッシュラインの状態 
とデータ）を，要求元の外部ェージヱントに返す•そ 
のリード応答の状態が Shared であるか否かによって， 
L 2 キャッシュに格納するデータの状態を決定する. 
リードミスに対しては， Shared 状態であればそのま 
ま，そうでなければ Clean Exclusive 状態で格納する. 
ライトミスに対しては， MESI アルゴリズムを採用す 
る場合は Dirty Exclusive 状態で， MOESI アルゴリズ 
ムを採用する場合は Dirty Shared 状態で格納する • 
プログラムのライト要求が， Shared 状態のライン 
にヒットする場合は， R 4400 MC はインバリデート要 
求 ( MESI ) またはアップデート要求 ( MOESI ) を発行す 
る.外部エージェントは，それを受けて，他のサブシ 
ステムへのインバリデート/アップデート要求に変換 
して，システムバスに転送する.その要求に対する受 
け付け応答が返ってくるとき，ライト要求は完了し， 
キャッシュラインは Dirty Exclusive 状態 （ MESI ) ，ま 
たは Dirty Shared 状態 ( MOESI ) となる. 

► コ ヒーレントリードとリード応答 
外部エージェントは常に システムバスを 監視してい 
る.しかし， システムバス 上にコヒーレントリードを 
検知してもすぐには応答を返さない • まず，自身が接 


続する R 4400 MC にインタベンシヨン要求を発行し， 
キャッシュ内に要求されているデータが存在するか否 
かを調べる.データが存在すればシステムバス上に 
Shared を通知する.また，対象となるキャッシュライ 
ンが Dirty Exclusive 状態であれば，そのキャッシュ 
ラインのオーナーになることを示すため ， Takeover 
(引き継ぎ）を通知する. Takeover を通知する場合は， 
Shared 状態だけではなく，リード要求に対する応答 
データもシステムバスに出力する.要求元の外部ェー 
ジェントは，その応答データを引き取って， R 4400 
MC へ返す.同時に，応答データはメインメモリにラ 
イトバックされる. 

なお，リード要求に対する応答データは，すべての 
外部エージェントが外部インタベンシヨン要求を完了 
した後に返ってくる. 

► インバリデートとアップデート 

R 4400 MC が発行するインバリデート/アップデート 
要求に対し，外部ェージェントは，そのままインパリ 
デート/アップデート要求をシステムバスに出力する. 

他の外部エージェントは，システムバス上にインバ 
リデート要求を検出すると，対応するキャッシュライ 
ンを無効化する.システムバス上にアップデート要求 
を検出すると，それに付随するデータを引き取り，対 
応するキャッシュラインに Shared 状態で格納する. 
►ライト 

外部エージェントは，システムバス上のライトトラ 
ンザクシヨンに対しては，何も反応しない.ライト 
データはメインメモリに格納されるのみである. 
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図 19 

Hammer におけるマル 
チプロセッサ構成時の 
接続例 


HT : Hyper Transport 
H 巳：ホストブリッジ 


• Hammer の場合 

Hammer に内蔵される North Bridge の構成を 図18 
に示す.1チップ内に，プロセッサ， APIC , システム 
要求キュー （SRQ : System Request Queue ) , DDR 
SDRAM インターフェース， 3 ポートの HyperTrans 
port が集積されている.これにより，外付けのチップ 
なしにマルチプロセッサ構成を可能にできる. 

Hammer におけるマルチプロセッサ構成時の接続 
を 図19 に示す.ここでは四つのチップを，2ポートの 
HyperTransport でリング上に双方向接続している 
( HyperTransport の残り1ポートは I / O に使用）•プ 
ロセツサ間の通信はキヤッシュコヒーレンシに対応し 


た Coherent HyperTransport で行う.この構成は，基 
本的にはメモリの位置によってアクセス時間が異なる 
ccNUMA である.しかし， AMD は全プロセッサの 
キャッシュのスヌー プ結果を集めて コヒーレン ス制御 
を行うアーキテクチャであり，実質 SMP であると主 
張している.非公式資料によれば， AMD は Hammer 
のメモリアーキテクチャを SUMO (相撲 ： Sufficiently 
Uniform Memory Organization ) と呼んでいるらしい. 
NUMA は，スケーラピリテイは高いがソフトでの管 
理が複雑であり， SMP はソフトは作りやすいがス 
ケーラビリテイが悪いということで， 

(1) 単一のメモリ空間でキャッシュコヒーレンシが維 


CPUO CPU1 CPUO CPU1 CPUO CPU1 
データデ—タプローブブロー プリクエストリクェスト 


図18 Hammer 内蔵の 
North Bridae の構成 
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持される 

(2) ローカルとリモートメモリのアクセス時間の差が 
DRAM のページヒットとミスの差と同程度 
を特徴としているらしい.現在の SMP ではどこのメ 
モリをアクセスしても完全に対称ということはないの 
で， Hammer の方式は SMP と大差ないと思われる. 

図20に， CPU 1 が CPU 3 のリモートメモリをリード 
する場合のトランザクションを示す.各チップのロー 
カルメモリのコヒーレンシを保つために，要求を受け 
た CPU 3 は各 CPU に Probe (スヌープ)要求を送り，そ 
れを受けた CPU は自身の Probe 結果を要求元の CPU 1 
に返す.この時点で， CPU 1 はどの CPU からデータ 
を受け取るべきかを判断する.その後， CPU 1 に要求 
したメモリデータが返り， CPU 1 はデータを受け取っ 
たという応答をデータの転送元 ( CPU 3) に返す. 

(1) CPU 1 が隣の CPU 2 に読み出し要求 (Read Cache 
Line ) を送る. 

⑵ CPU 2 がその要求を CPU 3 に中継する. 

(3) CPU 3 は要求を受け取り，自身のキャッシュの 
Probe (スヌープ）とメモリのリードを行うと同時 
に，両隣の CPU 0 と CPU 2 に Probe Request (ス 
ヌープ要求）を送る. 

⑷ CPU 0 は Probe Request を CPU 1 に中継する. 
CPU 3 は自身の Probe 結果 (Probe Response ) を 
CPU 2 に送る. 

(5) メモリからの応答 （Read Response ) が CPU 3 に返 
る. CPU 0 は自身の Probe 結果を CPU 1 に送る. 
CPU 2 は CPU 3 の Probe 結果を CPU 1 に送る. 

(6) メモリからの応答が CPU 2 に中継される. CPU 2 



図20 CPU 1 が CPU 3 のリモートメモリをリードする場合 
のトランザクション例 


は Probe Response は返らないので， CPU 3 の下の（最 
新ではない）メモリデータも CPU 1 に返ってくる. 
CPU 1 は，全 CPU の Probe 結果を知っているので，古 
いデータは破棄すればよい. 

これまでの説明は非常に単純な場合である.しかし， 
二つの CPU が同時にメモリリード要求を発行した場 
合のアービトレーションはどうなるのか，また同一の 
メモリに二つの CPU がライト要求を発行した場合に 
最新のデータがメモリに残るのか，などというコヒー 
レントアクセスの競合の問題がある.このような複雑 
な場合については不明であるが，明らかになったとし 
ても，説明に文字数を費やすだけなので，ここでは言 
及しない. 


の Probe 結果が CPU 1 に返る.この時点で，リー 
ド要求を出した CPU 1 に全 CPU の Probe 結果が集 
まる. 

(7) メモリからの応答が CPU 1 に返る. 

(8) CPU 1 はメモリデータを受け取ったという応答 
(Source Done ) を CPU 0 に送る. 

(9) CPU 0 は Source Done 応答を CPU 3 に中継する. 
以上の動作は， CPU 3 の下のメモリに最新データが 

ある場合，つまり，どの CPU のキャッシュもオーナに 
なっていない場合の話である.オーナならば， Dirty ま 
たは Shared Dirty 状態にある最新データをもっている. 

CPU 3 から Probe 結果を逆送していく過程で，どれ 
かの CPU がオーナであることが判明すれば，その 
CPU から CPU 1 への Probe Response に続けて最新 
データを送ることが可能である.この場合， CPU 3 に 


• Powe 「4 の場合 
►チップ間の接続 

Power 4 システムでは， CMP 構造のチップを 4 個搭 
載した MCM がシステム構成の基本になる.それを 4 
個リング状に接続することで， 16 チップ， 32 CPU のマ 
ルチプロセッサシステムを構成できる.一つの MCM 
は 8 CPU の SMP 構成で， MCM 間は Distributed Direc 
tory を使った ccNUMA 構成だという. Power 4 はプロ 
セッサ間の接続機能をチップに内蔵しており，夕(•付け 
ASIC なしでマルチプロセッサシステムを構成できる. 

各 Power 4 チップには， 2 個の CPU と L 2 キャッシュ， 
L 3 キャッシュのデイレクトリ（タグ）が集積されてい 
る.これに L 3 キャッシュとメモリを接続したものを 
リング状に 4 個並べて 1 枚の MCM が構成される.各 
チップは L 2 キャッシュと L 3 の中間に位置する Fabric 
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図 21 

Power 4 の MCM 構成 


他のモジュールへ 



他のモジュールから 


Controller で相互に接続される（図21 ). L 2 キャッシュ 
は7状態， L 3 キャッシュは5状態のキャッシュコヒー 
レンシプロトコルを採用し，一般的な MOESI などよ 
り賢い動きをする.これには，キャッシュ中のデータ 
をできるだけ有効利用することで L 3 キャッシュへの 
アクセスやメインメモリへのアクセス回数を減らすこ 
とを目的する IBM の特許が適用されているらしい， 
他の MCM との接続はチップ単位に行われる.つま 
り， MCM が CHIPO , CHIP 1, CHIP 2, CHIP 3 から構 
成されているとすると， CHIP 0 どうしのリング， 
CHIP 1 どうしのリング， CHIP 2 どうしのリング， 
CHIP どうしのリングを作り，全体として4重のリン 
グになる（図 22). これをイメージで示すと図23のよ 
うな感じになる. 


MCM0 

MCM1 

MCM2 

MCM3 


-CHIP0 一 CHIP1 一 CHIP2 — CHIP3- 


-CHIP0-CHIP1 -CHIP2-CHIP3- 


-CHIP0-CHIP1—CHIP2-CHIP3- 


C 


CHIP0-CHIP1 -CHIP2-CHIP3- 




図23 Power 4 の 32 CPU 構成時の接続イメージ 


このように， 32 CPU という比較的大型のマルチプ 
ロセッサシステムをコンパクトに構成している.この 
ため，リング構造を使っても，各チップ間の距離は 
短く，メインメモリも近くなり性能が向上する•各 
Power 4 チップの L 3 キャッシュのデイレクトリはこれ 
らのシステムのキャッシュコヒーレンシを維持するた 
めの ccNUMA 管理機能も有していると推測される. 

ところで， Power 4 のシステムは接続方式が厳密に 
規定されて設計されているように思えるので，このま 
までは 32 CPU を超えることはできないだろうと思わ 
れる.それ以上に拡張する場合は ， GX Port を経由し 
た ccNUMA システムとなると予想されるが，現実に 
は 32 CPU 以上のシステムは発表されていない. 
►実際のシステム構成 

Power 4 を搭載した最高位のシステム （2002 年時点） 
は] EM の eServer p 690 である.これは，当初の設計 
どおり，4枚の MCM を使用した 32 CPU のシステムで 
ある.しかし， HPC という科学技術計算用の構成も 
ある.これは Power 4 チップ内の 2 CPU のうち片方を 
殺している.こうすることにより，通常は 2 CPU で共 
有している L 2 キャッシュ， L 3 キャッシュ， メモリが、 
1 CPU 専用になるので， CPU の処理能力よりもメモリ 
性能が重要とされる大規模なデータを扱うシステムで 
有利になる. IBM はそのような数値計算において， 
30〜40%の性能向上が見込めるとしている.なかな 
か興味深い結果である. 

p 690 の下位機種に p 670 がある.これは Power 4 の4 
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図 22 Power 4 の 32 CPU 構成 


〜 16 CPU ， つまり最大 2 MCM のシステムである.こ 
のうちの 4 CPU システムは興味深い.1枚の MCM で構 
成され， Power 4 も4チップ搭載されているという.こ 
れは HPC モデルのように 2 CPU の片方を殺しているの 
であろうか，それとも，片方の CPU が不良の Power 4 
を利用しているのだろうか. 8 CPU と 4 CPU では，最 
小構成において，約9万ドルの差がある. 

p 670 のさらに下位機種として， p 630 というのもあ 
る.最大 4 CPU 搭載であり， 1 CPU の場合， Power 4 
の片方の CPU は殺してあるという.上位機種とは異 
なり， Power 4 を1個のみ搭載するモジュール （MCM 
ではない）， L 3 キャッシュ，メインメモリを搭載した 
プロセッサカードを最大2枚搭載する. 2枚のプロセ 
ツサカードは，通常は MCM 内でチップを接続するた 


めに使用される Fabric Bus で接続されているという. 

まとめ 

マルチプロセッサ構成の基礎を説明した.今回はコ 
ンピュータアーキテクチャというよりも 0 S のアーキテ 
クチャの説明のほうが多かった気もするが，最後まで 
読んでいただけたであろうか.いろいろな話題が詰め 
込まれて乱雑な気がしないでもない.初めから広く浅 
くの方針である.ところで一応， R 4400 MC ， Hammer , 
Power 4 の構成例を紹介したが，具体的なマルチプロ 
セッサの構成方法は MPU ごとに異なるし，マルチプ 
ロセッサ構成をサポートしていない MPU もあるの 
で，詳細を知りたい方は，各 MPU のマニュアルを参 
照してほしい. 
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コンフィギュアラブルの手法と実プロセッサの構成 

コンフィギュアラプルプロセッサの概略 

一 »曹屬—疆—«^腳，丽鬈1 棚 1 



7 コンフィギュアラプル 
1 プロセッサの分類 

• 「柔らかい」回路技術 

2002年頃から，プロセッサのアーキテクチャに関 
し， コンフィギュアラブル （configurable :構成可能） 
という単語が使われるようになった.これは，これま 
で御仕着せのハードウェアを利用するしかなかったソ 
フトウェァ技術者が，独§の設計で特定の専用機能を 
実現しようとするものである.あるいは，専用回路と 
同等の性能を実現しつつ，ソフトウエア並みの柔軟性 



図 A MIPS アーキテクチャの UDI 理論 


をねらうものである.ソフトウェアを開発するのと同 
じ感覚でハードウェア開発ができるため「柔らかい」 
回路技術と呼ばれている. 

コンフィギュアラブ ルな機能を実現する プロセッサ 
を コンフィギュアラブ ル •プロセッサと 呼ぶが'，その 
コンフィギユアラブ ルには いくつかの 段階がある.た 
とえば，大ざっぱには次の三段階に分類できる. 

•第一段階：ユーザーが独自の命令を追加できる. 
♦第二段階：プロセッサの設計時に回路要素を自由に 

構成できる. 

•第三段階：プロセッサの動作時に回路要素を自由に 

構成できる. 

第一段階は，一般的な IP コアでも導入されるよう 
になってきている.たとえば， ARM 社と並ぶ IP コア 
提供会社の老舗である MIPS 社は， MIPS アーキテク 
チヤのリリース2において UDI (User Defined Instruc 
tion ) というユーザーが自由に命令を定義できる機能 
を提供している.具体的には，命令コードの16個を 
ユーザー用に開放してあり，その命令コードのデコー 
ド方法，使用する演算器を自由に定義できる.これに 
より，特定の応用分野において速度を要求される機能 
を1命令で実現できる（図 A ) 注 1 . 

ただ ARM 社はユーザーのオリジナル命令の追加に 
否定的である.特定のデバイスに特化しても意味がな 
く，特定命令はユーザーの使用法を限定してしまい， 
結局は互換性がなくなるという主張である. 

第二段階は，あらかじめ用意されているいくつかの 
回路要素を ユーザーが 自由に組み合わせて， ユーザー 
独自のカスタムチップを作ることである.これは従来 
からある FPGA(Field Programmable Gate Array ) の 
手法に似ている. FPGA に関しては後述する. 

この第二段階の機能を提供するプロセッサ例として 
は， Tensilica 社の Xtensa を挙げることができる. 


注 1: MIPS 社は UDI 機能を CorExtend と命名し，その機能を提供する IP コアを Pro Series と呼んでいる. 2003 年 1 月時点で， Pro 
Series には， 4KE Pro (Emerald) フアミリ， M4K (Quartz) および 4KSd Pro コアがある. 2003 年 6 月には 24K (Topaz) がそのライ 
ンアップに加わった. 
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Xtensa はューザーが独自なハードウェアを構成でき 
るだけではく，第一段階でいうところの新規命令も定 
義することが可能であり， FPGA とは一線を画して 
いる. 

第三段階は，回路要素の組み合わせをプロセッサの 
動作時にも実行できる機能である.っまり， 一っのプ 
ロセッサが，ある瞬間ではとある特定の専用機能，ま 
たある瞬間では別の特定機能を実現できるようにな 
る.これは， MPEG のエンコーダ として最初は 動作 
していたプロセッサが，後には MPEG の デコーダと 
して 動作す るようなものである.このような機能は， 
コンフィギュアラブ ルと いっても， 再配置 （リコンフ 
ィギュア： re - configure ) 可能という 意味 からとくに 
リコンフィギュアラブ ル型と呼ばれる. 

第三段階の例としては，アイピーフレックス社の 
DAP/DNA や NEC エレクトロニクスの DRP がある. 

• コンフィギュアラブルは FPGA の進化形なのか 

コンフィギュアラブルプロセッサは，数種類の回路 
要素を数百個程度1チップに内蔵してあり，それら回 
路要素間の配線をセレクタなどで切り替えて目的の回 
路を作り出す.この考え方は FPGA の考え方と同じ 
であり， FPGA の特許に抵触するのではないかという 
懸念もあるそうだ.しかし，コンフィギュアラブルブ 
ロセッサの開発者は，その使い方が FPGA と一線を 
画しているとして，特許には抵触しないとみている. 
それどころか，コンフィギュアラブルプロセッサの基 
本技術を新規技術として積極的に特許を取得してい 
る， Tensilica 社のような会社もある. 

筆者は，静的に回路を構成する（上述の第二段階に 
あたる）コンフィギュアラブル技術は，特許抵触とい 
う観点からは灰色に近いと思う.しかし，上述の第三 
段階にあたるリコンフィギュアラブル技術は，回路の 
再構成時間が FPGA よりも高速（数 10 ms — 数 ns ) であ 
る点，実行時のアプリケーションプログラムで再構成 
を指定できる点が新規技術であるといわれている. 

ここで， FPGA に関して簡単に説明しておく. 

プロセッサの製造方式には，半導体製造 メーカー 寄 
りか ューザー 寄りかでいくつかの段階がある.その昔 
(というか今でも）， ューザーが ある機能をもった ハー 
ドウヱアを欲しレ、場合は半導体製造メーカーに製造を 
委託して製造していた.これがカスタムチップあるい 
は AS し Application bpecined Custom Processor ) と 
呼ばれるものである. 

カスタムチップのうち，もっともチップ面積が小さ 


くて高速動作を行うことができるのがセルベース 1 C 
である.これらの 1 C は， ユーザーの 要求にしたがっ 
て基本セル（単ー ゲー トや複合 ゲー ト）を配置.配線し 
て製造する.あるいは，特定機能を実現するた めの マ 
クロセルとして IP コアを組み合わせて製造する場合 
もある.これは，機能設計やタイミング設計などの点 
で製造が難しいので半導体 メーカーに 一任される •こ 
のため，チップ面積は小さくなり，速度が向上するな 
ど，回路の最適化が可能になる. 

ユーザーが機能設計を行って，半導体メーカーが製 
造するのがゲートアレイ (Gate Array ) である.ゲー 
トアレイは標準的な回路要素が1チップ内に論理セル 
として多数内蔵されている.その配線方式をチップの 
製造時に指定することで，目的のハードウヱアを実現 
する.ユーザーが設計した HDL の論理を論理セルの 
配線方式に変換する作業をマッビングという.ゲート 
アレイも高速動作が期待できるが，未使用の（むだな） 
論理セルが存在するため，チップ面積は大きくなる傾 
向にある.ただし，大枠の回路があらかじめ決まって 
いるので，セルベース 1 C と比べると安価に設計でき 
る.また，配線工程だけでチップが製造できるのでエ 
期が短い.セルベース 1 C やゲートアレイは ASIC 
(Application Specified Integrated Circuit = 特定用途 
に特化した IC ) の一般的な手法である. 

FPGA は，ゲートアレイをユーザーが自分で設計で 
きるようにしたものと考えれば理解しやすい.つまり， 
設計したい論理回路を設計現場で即座に実装できる. 
このようなデバイスを総称して PLD (Programmable 
Logic Device ) という.つまり，論理をプログラム可能 
なデバイスという意味である.この PLD を大規模に 
したものが CPLD(Complex Programmable Logic 
Device ) であり，さらに大規模にしたものが FPGA で 
ある. CPLD と FPGA の違いは，内蔵されている論理 
セルの配線方式にある. CPLD は積項（プロダクトター 
ム）と呼ばれる回路で論理セル間を配線する . FPGA 
は LUT(Look Up Table ) と呼ばれるメモリとマルチプ 
レクサを組み合わせた回路で論理セル間を配線する. 
セルベース1 C ，ゲートアレイ， CPLD , FPGA を比較 
したイメージ図を 図 B に示す. 

ユーザーが HDL で記述した機能をデバイスにマッ 
ビングして専用回路を作るという点で， CPLD/FPGA 
はゲートアレイと同じである.しかし，何度も配線論 
理を書き換えできる点でゲートアレイよりも優れてい 
る.しかし，半導体メーカーが作成するセルベース 
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(c) CPLD 

図 B セルベース 1 C とゲートアレイ， CPLD ， FPGA の違い 

1 C やゲートアレイよりは低速である.高速動作を必 
要としない分野では CPLD / FPGA をそのまま専用プ 
ロセッサとして利用する場合もあるが，一般としては， 
ユーザーが設計した回路機能をゲートアレイ化する前 
の動作検証用に FPGA を使用する場合が多い.計算 
機の機能シミュレーションで， HDL 記述を用いて動 
作検証を行う場合は非常に多くの時間を必要とする. 
しかし FPGA で動作させれば，機能シミュレーショ 
ンの数万倍以上の速度で検証できるため，デバッグが 
容易である. また, そのデバッグの高速性のため，機 
能シミュレーションでは実現できないような複雑な夕 
イミングも検証することができる. 

というのが少し前までの感覚だったが，今は少々事 
情が異なる. FPGA の進化には目覚ましいものがある. 
ゲート規模は数百万ゲートを遥かに超え，動作周波数 
も 200 MHz / 400 MHz は当たり前である.また ， FPGA 
の老舗である Xilinx などは， FPGA に可能な IP コア 
( CPU を含む）を各種取り揃えており，それらを SoC 


(d) FPGA 

的に組み合わせるだけで専用チップが設計できてしま 
う.莫大な数量を必要としないならば， ASIC やゲー 
トアレイに頼らなくても FPGA だけで期待した性能 
を実現することができる.つまり，比較的安価に専用 
チップを製造できるようになったのである.これは半 
導体メーカーにとっては脅威であり，また一方 ， Fab 
レスな IP コアの論理設計のみという商売を加速する 
ものになるであろう. 

半導体 メーカー も FPGA 対策 （？） に は 躍起である. 
短納期 ASIC というものが開発されている.通常の 
ゲートアレイの1/5〜1/4程度の期間で，顧客のネッ 
ト リス トを受け取ってから出荷までを可能にしている. 
このような製品には ， LSI Logic の RapidChip，NEC 
エレクトロニクスの ISSP , 富士通の Accel Array など 
がある.これですらエ期的には FPGA には敵わない 
が，動作速度，規模，消費電力の点で FPGA では実 
現不可能な領域が確実に存在するというのが半導体 
メーカー （富士通など）の言い分である. 
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Appendix 5コンフイギユアラブルプロセッサの概略 


なお， コンフィギュアラブル プロセッサは， FPGA 
と ASIC (ゲートアレイ）の中間的な用途で利用するこ 
とを目的としている. 

• 汎用プロセッサではダメなのか 

何も無理して コン フィギュアラブルな専用プロセッ 
サを利用しなくても， Pentium や Athlon のような?凡 
用プロセッサを利用すれば，アプリケーションプログ 
ラムを切り替えることで，異なる種々の機能を実現で 
きる.この点を考慮すれば汎用プロセッサのほうが融 
通が利く.その意味からすると，汎用プロセッサは本 
来 コン フィ ギュ アラブルなものである.世間で言う コ 
ン フィギュアラブルプロセッサは，プロセッサ内の 
データ処理の構造までも コン フィギュアラブルにした 
ものである. 

専用プロセッサが有利になる条件は何だろうか.特 
定用途の高速化であることは間違いないが，汎用プロ 
セッサを複数個並列処理することで同等の性能を実現 
することはできる.専用プロセッサが選択されるため 
には，汎用プロセッサで同等機能を実現するよりも， 
システム的に低コストである必要がある. Pentium や 
Athlon は PC 市場が活発なため「殿様商売」的なとこ 
ろがあり，あまりディスカウントをしていない.しか 
し， ARM や MIPS といった組み込み制御用のプロセ 
ッサは，通常なら1000円程度，高くても5000円程度 
である.これはかなり安価である.これらのプロセッ 
サを複数個使用した場合よりも，コンフィギュアブル 
プロセッサを使用した場合のほうがシステムコストが 
安くなるという点が採用の分岐点である.現&アイ 
ピーフレックスの DAP / DNA - HP は数千円程度といわ 
れており，汎用プロセッサの5倍程度の性能差がなけ 
れば割に合わない.これはかなり微妙な分岐点であ 
ろぅ. 

コンフィギュアラブルプロセッサの特徴は，主人で 
あるメインのプロセッサと種々の専用機能を提供する 
家来のコプロセッサという構成である点だ.これは， 
汎用プロセッサと DSP の組み合わせや，汎用プロセ 
ッサと少し機能の劣る ( MMU がないなど)小規模な汎 
用プロセッサといったシステム構成と同じである.実 
際このような構成を採用する SoC も多数存在してお 
り，コンフィギュアラブルプロセッサのライバル関係 
にある.このような現状を考えると，コンフィギュア 
ラブルプロセッサの独擅場になる場面をなかなか想定 
しにくい. 

2003年6月の「2003 Symposium on VLSI Circuits 」 


の 1 セッシヨンにおいて，リコンフィギュアラブルプ 
ロセッサの実用化をめぐる議論が行われた.実際に製 
品を開発している会社 （ NEC , アイピーフレックス， 
SONY ) は，リコンフィギュアラブルプロセッサは汎 
用プロセッサと ASIC ， あるいは FPGA と ASIC の間 
を埋める存在として必須であると主張した.しかし， 
高性能汎用プロセッサを開発している IBM や Intel 
は，リコンフィギュアラブルプロセッサの潜在的な性 
能は認めるものの，再構成の時間がかかる点と再構成 
可能な回路構成が冗長(大規模)になる点を挙げて，汎 
用プロセッサの敵ではないと反論した.これらの論争 
がリコンフィギュアラブルプロセッサの賛否の現状を 
端的に表していると思っていいであろう. 

リコンフィギュアラブルプロセッサの懐疑派は通信 
関係の人に多い.通信処理では各種のプロトコルを使 
うパケットが混在して入力されるため，プロトコルご 
とに構成を変更するのでは処理が間に合わないと主張 
する. 2003年時点のリコンフィギュアラブルプロセ 
ッサ論議は，宗教的な論争の域を出ていないと筆者に 
は思われる. 

• C 言語設計ではダメなのか 

最近， SystemC などの C 言語で回路を記述するの 
が流行である.ソフトウェア屋さんが回路設計をする 
という目的からは，リコンフィギュアラブルプロセッ 
サを使用しなくても， C 言語設計をするということで 
すべての要求を満たしていると思う.リコンフィギュ 
アラブルプロセッサは， C 言語などの高級言語で書い 
た記述から機能ュニット間の接続情報を生成するのに 
対して， C 言語設計は直接回路を生成する.回路の効 
率的には，おそらく C 言語設計のほうが勝るだろう. 
これは，従来のセルベース設計と FPGA の開発と容 
易に対比できる.これらと， C 言語設計やリコンフィ 
ギュアラブル技術の相違は，意義的には高級言語で機 
能設計をすると機能検証が容易なので，設計期間が短 
縮できるところにあるのだろう. 

だが現在のところ， C 言語設計には，変換してでき 
た回路情報が意図したものであるかどうかを検査する 
形式検証ツールに実用的なものがなく，その採用に躊 
躇しているエンジニアが多い.これが解決されるには， 
まだ数年を要すると考えられる.もしかしたらリコン 
フィギュアラブル技術はそれまでの隙間を埋める技術 
で終■わってしまうかもしれない. 

ダイナミックリコンフィギュアラブル記述は，通常 
のリコンフイギュアラブル技術とは性格が異なるの 
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で，それなりの意義はあると思う.しかし，通常のリ 
コンフィギュアラブル技術は，将来的には C 言語設計 
に吸収されていくのではないだろうかと思う. 

• 記憶素子を使つたコンフィギュアラブ J レ技術 

メモリに使われる記憶素子を利用したコンフィギュ 
アラブル技術の研究を，ロームと東北大学が共同で行 
っている. 

メモリといっても磁気で状態を記憶する強誘電体キ 
ャパシタ注 2 を使用している.強誘電体キャパシタを 
2個使用することで AND , OR といった論理演算を実 
現できる（詳しい理論は省略）ため，これらを組み合わ 
せれば演算回路を構成できる.強誘電体キャパシタで 
論理回路を構成する利点は，回路規模が小さくなり動 
作周波数も向上することである.強誘電体キャパシタ 
は本来が記憶素子であるため，回路内の記憶論理であ 
るフリップフロップ，レジスタ，ラッチの置き換えが 
容易である.単純なフリップフロップでも数個の論理 
ゲートが必要だが，それを強誘電体キャパシタに置き 
換えると数分の1程度の大きさになることが期待でき 
る（実際には1/3程度らしい）.また，回路規模が小さ 
くなるのでゲート1段ごとに記憶素子を挿入すること 
が可能になったり，演算器自体に記憶機構をもたせた 
りすることができるため，ゲート遅延を最小に抑えら 
れる.ロームと東北大学が2002年2月の ISSCC で発表 
した論文によると，強誘電体キャパシタを使用した54 
ビット x 54ビットの乗算器注 3 を， 0.6 夕 m プロセスで 
製造し，それは 250 MHz で動作したことが報告されて 
いる.通常の 0.6 "m プロセス CMOS 回路は 100 MHz 
程度の動作である. 

強誘電体キャパシタは記憶素子であるため， FPGA 
で使用される LUT (Look Up Table ) や，従来のコン 
フィギュアラブル技術で利用されている回路要素間を 
つなぐスイッチの役割を果たすことができる.また， 
演算回路の間に記憶回路を容易に混在させることが可 
能なので，自由度の高い論理回路も構成できる.そし 
て，マイクロアーキテクチャの足枷となっているメモ 
リアクセスのボトルネックを解消することも期待され 
る.このように記憶素子の利用は，次世代のコンフィ 
ギュアラブル技術として注目されている. 


コンフィギュアラブル 
S プロセッサの実際 

一 静的リコンフィギュアラブル 

いわゆるコンフイギュアラブルプロセッサにはいろ 
いろな実装方式があり，その特徴を一般論として述べ 
るのは難しい.しかし，2002年以降「コンフィギュ 
アラブル」という属性は非常にクローズアップされて 
いる.ここでは，各社が提案しているコンフィギュア 
ラブルプロセッサの実際について見てみたい.応用例 
を見る限り，各社とも DSP からの置き換えを狙って 
いる感がある. 

• Tensilica 社の Xtensa 

Xtensa は Tensilica 社が開発したコンフィギュアラ 
ブルで拡張性のある論理合成可能なプロセッサコアで 
ある.組み込み制御分野での SoC とする目的でアー 
キテクチャ設計されている.目的とする SoC が要求 
する機能を実装できるようにコンフィギュアラブルな 
構造を採用している（図 C ). 

システム設計者は，あらかじめ定義されたアーキテ 
クチャ要素を選択してコンフィギュア（構成）し，想定 
するシステムに最適な新しい命令や実行ュニットを作 
り出すことができる.これが従来の SoC 設計とは大 
きく異なる部分である. 

Xtansa の RISC コアは組み込み制御向けのコンパク 
卜なアーキテクチャをもっている.基本となるアーキ 
テクチャは，1個の32ビット ALU と最大64本の汎用 
レジスタ，6本の特殊用途レジスタ，80種の基本命令 
からなる.命令長は16ビットまたは24ビットであり， 
競合他社の32ビットに比べるとコードサイズを削減 
できる.命令セットで特徴的なのは，ループを最適化 
する比較-分岐命令，ファンネルシフトやフィールド 
抽出を含むビット操作命令があることだ. 

システム設計者は Tensilica Instruction Execution 
( TIE ) 言語を用いて，新規のデータ型，命令，実行ュ 
ニットを定義できる. TIE の記述を Web ベースの 
Xtensa プロセッサジェネレータに入力することによ 
って，新しい論理合成可能なハードウェア情報を生成 
できる.また， Xtensa プロセッサジェネレータは 
RISC コアの構成要素を選択して高速にハードウエア 


注2 :強誘電体キヤパシタでなくてもヒステリシス特性をもつ不揮発性メモリならば，理論的には何でも利用可能である. 

注3 :54ビットというビット数は倍精度浮動小数点演算器での応用をねらったものである.実際，乗算器の研究では54ビットの符号な 
し乗算を目的とするものが多い. 
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Appendix 5 コンフィギュアラブルプロセッサの概略 


トレースポート 


JTAG タップ 

コント□—ル 


オンチップデバッグ 




アドバンス 
ユーザー定義機能 























:つ: 

CD ： 

： i ~： 

O 

: 

















11111111111 
データ 
キャッシュ 
11111111111 


Tu 


夕 ROM 
111 11 [ 


I I M I I I 

夕 RAM 


Xtens の□一カル 
メモリ 

インターフェース 


図 C Xtensa のブロック図 


を生成できる.選択可能な要素には次のものがある. 
► 実行ユニットと命令セット 
• 乗算器： 16 ビットまたは 32 ビット 
• Vectra DSP ェンジン（図 D ) 

•浮動小数点ユニット 
► インターフェース 

•プロセッサインターフェース： 32 ビット， 64 ビッ 
卜 ，128 ビット 

•ビッ グェンデイアン/リトルエンデイアン 
•オンチップのデバッグ機能 
•実行 トレース用のポート 


•最大 32 本の割り込み 

► メモリシステム 

• MMU 

•キャッシュ：最大 4 ウェイ，最大 32 K バイト，ライ 
卜制御の選択 

• 命令とデータでの ROM/RAM 領域の分割 
また，丁 ensilica 社は Xtensa を将来的に VLIW とす 
ベく， 64 ビット命令長をもつ FLIX (Flexible Length 
Instruction Xtensions ) を発表している.従来の 
Xtensa 向けオブジェクトコードもそのまま動作可能 
だ.そのしくみは，オブジェクトコード中に 64 ビッ 
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図 D 

Vectra DSP エンジン 
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アドレス 

図 E Xtensa のメモリ内の命令配置例（リトルエンディア 
ン時） 
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卜長の VLIW 型命令と，16ビット/24ビット長の従来 
の RISC 型命令を，それぞれ独立に混在させることが 
可能にさせる（図 E ). つまり，プログラム中で必要な 
部分のみを VLIW 型命令で記述することができるの 
だ.ユーザーにしてみると，従来の命令に加えて64ビ 
ット長の命令が追加されたように見えるだけである. 

• ARC の ARCtangent 

ARC International 社（通称 ARC Cores 社）は，ネッ 
トワーク，通信，家電，無線分野のための論理合成可 
能な IP を提供する IP ベンダである.1998年にゲーム 
開発会社の Argonaut Technology 社から独立し，ほ 
とんどすベての組み込み分野にカスタ マイ ズ可能な コ 
ン フィギュアラブルプロセッサ である ARC を開発し 
た. Argonaut 社は Super Nintendo 向けのグラフイッ 


クスアクセ ラレータ として コンフィギュ アラブルな コ 
アを任天堂にライセンスしたことで有名である. 

ARC 社の Web ページでは 「コンフィギュア ラブ 
ルな SoC ブラットフォーム技術における世界的リー 
ダー」とうたっている.実際， ARC 社は コンフィ ギ 
ュア ラブルプロセッサの先駆者である . IP コアと して 
CPU も提供し，8ビットの汎用プロセッサから，16ビ 
ツトの8086/80186, 32ビツトの ARCtangent ファミリ 
まで幅広い応用分野に対応している. 

中で も ARCtangent ファミリの プロセッサは，ユー 
ザーが命令や構成を応用分野に特化してカスタマイズ 
できる RISC 型のコンフィギュアラブルプロセッサで 
ある.具体的には ARCtangent - A 4 と ARCtangent - A 5 
プロセッサがあり，これらに DSP を付加した構成も 
可能である.また周辺機能として， EthernetMAC , 
UART , USB 0 JSB 1.1 ホスト/デバイス， USB 2.0 On - 
The - Go ) の IP を内蔵できる.これらは， ARChitect と 
いう GUI ツールで 簡単に構成できる. 

ARCtangent - A 4 は高い周波数が要求される分野に 
最適である. ARCtangent - A 5 は，16ビット長を基調 
とした命令セットを提供し，低価格分野への適用に向 
いている. 

ARCtangent - A 4 の CPU コアは 4 ステージのパイプ 
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Appendix 5 コンフイギユアラブルプ□セツサの概略 


図 F ARCtangent - A 4 
のブロック図 



AMBA AHB 
スレーブ 
インター フエー ス 


メイン 


AMBAAHB 

メモリ 


マスタインターフェース 


ラインを有する32ビット RISC である.その命令セッ 
卜は直交しており，アドレッシングモードと演算機能 
の自由な組み合わせが可能である.また，ほとんどの 
命令において条件コードを用いた演算が可能である. 
図 F に ARCtangent - A 4 のブロック図を示す. 

ARCtangent - A 4 では，命令セット，レジスタファ 
イ ル， 条件コード，キャッシュ，バスなどのアーキテ 
クチャ 的な特徴を ユーザー 自身が構成/拡張できる. 

その命令セットは，標準的な命令が30個あり，さら 
に最高70種 (2 オペランドが16個，1オペランドが54 
個）の命令を追加できる.レジスタは基本が36本（う 
ち汎用は29本)で，64本まで拡張できる.動作周波数 
は0.18 /im プロセスで 200 MHz ， 0.13 パ m ブロセスで 
260 MHz である. また， プロセッサの 面積は標準的な 
構成において，0.18 "m プロセスで 0.18 mm 2 ，0.13" 
m プロセスで 0.1 mm 2 である. 

ARCtangent - A 5 は，基本的には ARCtangent - A 4 と 
同じものであるが，命令セットが異なる.命令セット 
には86個 （35 個が16ビット長，53個が32ビット長）の 
基本命令があり，応用分野に特化すれば128個の32ビ 
ット長命令と128個の16ビット長命令を追加できる. 


16ビット長命令を追加すれば，プログラムサイズを 
縮小することができる.レジスタは35本（うち26本が 
汎用）であり，さらに28本のレジスタを追加できる. 
動作周波数は0.18 " m プロセスで 170 MHz , 0.13 "m 
プロセスで 230 MHz である.また，プロセッサの面積 
は標準的な構成において，0.18 プロセスで 0.25 
mm 2 , 0.13 " m プロセスで0.13 mm 2 である.命令セッ 
卜が複雑になった分だけ，動作周波数が低下し，面積 
も大きくなっている. 

ARCtangent - A 4 と ARCtangent - A 5 は，ユーザーが 
目的とする応用分野に応じて使い分けることができる. 

ARC 社は2000年7月に Xilinx と提携して，自社の 
コンフィギュアラブルコアを FPGA として提供でき 
るようにした.これにより， ARC プロセッサと FPGA 
のどちらにも備えられたリコンフィギュレーションと 
いう特徴が，一般のプロセッサによるソリューション 
では実現できない最適な柔軟性を提供できるようにな 
った. 

また，2003年10月， ARC 社は ARC tangent - A 5 のス 
ピードと電力を改善した ARC 600 を発表した.スピー 
ドを向上させるためにパイプライン段数を従来の4段 
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図 G 

ARM の OptimoDE 概念 



から 5 段に増やし， 290 MHz を達成させた （0.13 プ 
ロ セス時）.消費電力についてもゲーテ ィッ ドク ロッ 
クを多用し， ARCtangent - A 5 が 62 mW @230 MHz だ 
ったのが， ARC 600 では llmW @290 MHz となった. 

• ARM の OptimoDE 

OptimoDE (Optimal Data Engine technology) とは， 
ARM 社が提供する VLIW 構造のコンフィギュアラブ 
ルなコプロセッサである•とくに DSP と同様な制御 
を行うアクセラレータを自動生成する機能をもつ. 

通常の DSP ソリューションはアプリケーションの 
アルゴリズムを汎用プロセッサ （ DSP ) に合わせて開 
発する必要がある.しかし， OptimoDE では，マクロ 
アーキテクチャテンプレートに従って，アルゴリズム 
中の，ハードウェアで行う重い部分とソフトウェアで 
行う軽い部分を専用ツールが切り分ける.ハードゥェ 
アで実行する•部分が VLIW のデータエンジンとなる. 
これは，システム構成に合わせてアルゴリズムを開発 
していた従来手法とは異なり，まずアルゴリズムあり 
きで，それに適合したハードゥヱアを自動生成する手 
法である（図 G ). 

ARM 社の発表によると， MPEG -2 での応用例を挙 
げ，100%ソフトウェアで行うと 611 MHz の能力が必 
要な処理を 240 MHz 程度で行うことができるという. 
この場合のアクセラレータの面積は 1 mm 2 (プロセス 
不明，おそらく 0.13 " m ) であるという. 

理論的にこの技術は， ARM に特化せずともほかの 
アーキテクチャにも流用可能である. ARM 社が他社 
にライセンスするつもりがあるか否かは不明である. 


• QuickSliver 社の ACM 技術 

ACM (Adaptive Computing Machine ) 技術は，米 
国のベンチヤー企業である Quicksilver 社が開発した 
ダイナミックリコンフィギュアラブル技術である. 

従来のリコンフィギュアラブル技術は，アプリケー 
シヨンや アル ゴリズムの レベルと いう大きな単位で考 
えられている.それらの多くは，ワード単位の処理は 
可能だがビット単位の処理は得意ではないということ 
だ.つまり，ある構成から別の構成に変更するのが容 
易ではない. ACM 技術は，このような問題を解決す 
るために，局所的に専用機能を柔軟に組み合わせるこ 
とを特徴としている. 

この技術を言で説明すると，スケーラブルで均一 
( homegeneous ) なフラクタルネツトワーク （ Hilbert 曲 
線か？ ） で，異種 ( heterogenious ) の演算ユニットを接 
続して回路を構成する.つまり，4個の異なるノード 
を相互結合したノードをフラクタル状に結合するとい 
うことである.代理店の説明によると，単純なプロセ 
ッサ（ノー ド）を CMP (Chip Multi - Processor ) 結合した 
イメージだそうだ. 

概念は難しそうだが，基本的には4個の異種ユニッ 
卜を I / O で接続するレベル1クラスタをフラクタル 
(細密充填)上に接続することで回路を形成する（図 H ) 
ということになる.レベル1クラスタを形成する演算 
ユニット （ Node と呼ぶ）には， 

AXN …複雑な ALU 
AN 2 …単純な ALU 
DAN … DSP 算術演算 
DBN …ビット操作 
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Appendix 5 コンフィギュアラブルプロセッサの概略 


図 H Quicksilver の 
ACM 技術 



DFN … 有限ステートマシーン 
(Finite ^ate Machine ) 

PSN … Scalar 演算ユニット 
XMC ... 外部メモリコントローラ 
など，全部で9種類ある.基本的には， 

1) DSP ライクプロセッサ 

2) 32ビット RISC プロセッサ 

3) ASIC 並みのアクセラレータ 

に分類される.どのようにネットワーク接続を変更す 
るかについてはまだ謎が多い. 

QuickSilvei •社は，低消費電力の携帯機器やワイヤ 
レス通信機器に搭載する LSI に ACM 技術を利用す 
ることを考えている.実例として，音声コーデックの 
QCELP (Qualcomm Code Excited Linear Prediction ) 
アルゴリズムの 実装例を示している. DSP で実装し 
た場合は消費電力が 84 mW ， シ リコ ン面積が 4 mm 2 , 
ASIC では消費電力が18.45 mW ， シリコン面積が 
19.8 mm 2 になるという.一方， ACM 技術を利用した 
PLD と RISC コアを集積した LSI では，消費電力が 
10.9 mW(PLD コアが 2.9 mW，RISC コアが 8 mW )， シ 
リコ ン面積が 7.15 mm 2 (PLD コアが 5.15 mm 2 ，RISC コ 
アが 2 mm 2 ) で済むという. まあ， それなりの効果は 
あげてい るよう である. 

これをどのように販売していくかについては ， AOI 
テクノロジー という会社が オ リン パス や日商岩井の後 
ろ盾を得て計画している . AOI テクノロジーは 嶋正 
利氏（あのインテルの4004を設計した）が，2003年10 
月から，社長に就任して注目を集めている.嶋氏は 
VM テクノロジーな どの社長を経験したが成功には至 


ってない.今回， ACM 技術に惚れ込み，もう一度新 
しい技術で MPU 設計をするという野望に燃えている 
と聞ぐ 

なお，2004年1月に ACM の名称は 「 Adapt 2000 
ACM 」 と変更された.同時にテストチップの QS 2412 
がリリースされた.プレスリリースによると，サボー 
卜されるノードは AXN ， DBN , XMC , PSN の4種に 
限定されている. QS 2412 は12個のノー ドを搭載し， 
最大 300 MHz で動作する.消費電力は 650 mW である. 
• Silicon Hive 社の AVISPA と巳 RESCA 

Silicon Hive 社は Philips ( Philips ’ Technology 
Incubator ) の子会社であり， Philips の開発したリコ 
ンフィギュアラブル技術を応用した製品を開発 • 提供 
している.具体的には， C 言語で記述された設計を基 
に製造される高性能で低消費電力の IP コアである. 
その IP コアは，基本的には DSP の置き換えをねらっ 
ており，各種汎用 CPU コアのコプロセッサとして動 
作する. 

Silicon Hive 社の製品にはブロックアクセラレータ 
と B 乎ばれる AVISPA と，ストリームアクセラレータと 
呼ばれる BRESCA がある.この二つは同ーアーキテ 
クチャであり，セル （ CELL ) と呼ばれる ULIW(Ultra 
Long Instruction Word ) で並列に制御する機能ブロッ 
ク が一つ のものが AVISPA で，それを格子状に相互結 
合して，さらなる性能向上をねらったのが BRESCA 
である（図 I ). 

一つの セルは複数の PSE(Processing and Storage 
Element ) から構成されており，さらに各 PSE は複数 
の発行スロット （Issue Slot ) から構成される.これが 
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図 I 

ブロックアクセラレー 
夕とストリームアクセ 
ラレータ 



ストリームアクセラレータ 



図 J セルの構成例 

ULIW の命令と1対1に対応する.セルと PSE の詳細 
を以下に述べる. 

► セル 

セルは， 一つの VLIW 似のコントローラ， 一つの 
コンフィギュレーションメモリ，一つ以上の PSE の 
マトリックスで構成される（図 J ). 一つの セルが 特定 
のアルゴリズムを計算するプロセッサとして成り立 
つ.セルの中の PSE は ， CL (Communication Line ) と 
呼ばれる信号線によってお互いに通信する.通常，一 
つのアブリケー シヨンの 機能は， 一つの セルにマッピ 


CONFIG MEM :コンフィグレーションメモリ 
CTRL :コント□—ル 

PSE :プロセシング&ストレージエレメント 

ングされる. 

► PSE 

PSE はアーキテクチャの基本的な構成要素である. 
PSE は複数の相互結合網 ( IN ) から構成される VLIW 
似のデータパスをもち，各機能ユニット （ FU ) と関連 
する一つ以上の発行スロット （ IS ) と結合される（図 K ). 
機能ユニットは，オプションとして記憶素子 （ MEM ) 
をもつ. 

► AVISPA 

AVISPA の概略は次のとおり. 
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ンフィギュアラブルプロセッサの概略 



図 K PSE (Processing and Storage Element ) の構成 


*PSEx 4, I/O PSE x 1 , サブプロセッサでシリコ 
ンを構成 

• 最大 512 命令の ULIW 技術 
*41 個の機能ユニットを並列実行可能 
•機能ユニットは 75 種類を備える 
(ビット操作， ALU, アキュムレータ，シフタ， 
ロード/ストアユニット，記憶素子） 

• AMBA インターフェース 
►BRESCA 

BRESCA の概略は次のとおり. 

•最大8 x 8個のセルで構成 

•一つのセルは 14 個の機能ユニットを含む 

• 9 個の機能ユニットを並列実行可能 

• 32 個の 16 ビットレジスタファイルを内蔵 
•16 ビットの遅延メモリ 

• AMBA インターフェース 

なお， 2003 年 10 月の Microprocessor Forum では， 
AVISPA を強化した AVISPA+ の発表をしている. 
AVISPA+ は， 103 個の機能ユニットと 130 個のレジ 
スタファイルをもち， 60 個の命令を同時発行する. 
130nm プロセスでサイズは 4mm 2 , 150MHz 動作で 9 


G0PS の性能という. 


3 


コンフィギュアラブル 
プロセッサの実際 
一動的リコンフィギュアラブル 


• NEC エレクト□のクスの DRP 

DRP (Dynamically Reconfigurable Processor) は， 
内部の構成を動的に変更可能ないわゆるリコンフィギ 
ユアラブル型プロセッサである.1チップ内に複数の 
PE (Processor Element) やメモリがアレイ上に配置さ 
れており，これらの要素の接続をクロックサイクルご 
とに切り替えることで種々の機能を実現する.具体的 
には図 L に示すように， 64 個の PE と状態遷移を制御 
する STC(State Transition Controller) と呼ばれる 
シーケンサを 一つの タイルと呼び， この タイルを8個 
内蔵する.これは，ハードウェアによる高速処理をソ 
フトウェア的に実現する技術であり，これにより，限 
られたチップ面積の中で仮想的に無限大のハードウェ 
アを構成することが可能になる. 

DRP は，並列プロセッサ上でネットワーク機器， 
プリンタ，車載機器といった専用論理回路と同等な処 
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ステートトランザクションコントローラ 

















































1 プロセッサエレメント 


__ ] メモリ 

図 L DRP のタイル構成 


理を行うことを目指したものである.その最大の特徴 
は，動作中に内部構成を変更することが可能なことで 
ある. 一つの プロセッサで複数の専用回路をもつプロ 
セッサを作り出すことができるため，それぞれ個別に 
専用論理回路を組む場合に比べてチップ面積を削減で 
きる. 

DRP の評価チップは 0. 15 " m ルールの CMOS ブロ 
セスで製造されている.幅広くシステムアプリケーシ 
ョンを評価できるように，動的構成部分は512個の 
PE と16面の動的回路構成面および 2.2 M ビットのメ 
モリから構成されている.ただし，処理内容によって 
クリティカルパスの長さが異なるため，動作周波数は 
33 MHz 〜 133 MHz の幅があるという.この動作周波 
数の幅が DRP の欠点ともいえる.つまり，想定する 
動作周波数によって構成できる専用回路の種類が制限 
されてしまうのだ. 

NEC エレクトロニクスによると， DRP は2003年以 
降の製品化を目指す. 2004年には 90 nm の CMOS プ 
ロセスで 250 MHz 動作品を発表する予定だという. 

• アイピーフレックス社の DAP/DNA 

DAP / DNA はアイビーフレックス社の開発したリ 
コンフィギュアラブル型プロセッサである.同社独自 
の RISC 型32ビット CPU コア 「 DAP(Data Applica 
tion Processor )」 と， 148 個のエレメント（演算器）が 
マトリックス状に並ぶ再構成可能な 「 DNA(Distri 
buted Network Architecture )」 の二つの部分からな 


る（図 M ). DNA 内部のエレメント間の配線をソフト 
ウェアにより動的に変更することで，アプリケーショ 
ンでの処理に最適な回路構成を実現できる. 

DAP / DNA のねらいは二つある.第一は，ハード 
ウェア構造をほとんど意識せずに，ソフトウェア技術 
者が専用論理回路並みの性能を入手できることであ 
る.具体的には C 言語のソースコードから回路を生成 
することで，ソフトウヱア技術者でも回路設計が可能 
になる.また，動作検証をシミュレーションで行って 
おけば，その動作が実チップでも保証される.第二は， 
一つのチップを種々の専用 LSI に瞬時に置き換えられ 
ることである.たとえば， 5 mm 角のチップが，従来 
の 20 mm 角チップと同等の機能をもつという. 

DAP / DNA が特徴的なのは， DNA 内のマトリック 
スを制御する専用プロセッサである DAP と呼ばれる 
専用 CPU が存在する点である.この CPU により， 
DNA マトリックスに対し，命令レベルによる切り替 
えと割り込み方式による切り替えの2種類が選択でき 
る.また， DAP は16/32/48ビットの可変長命令の 
アーキテクチャを採用している. Xtensa 内の CPU も 
可変長命令を使用しており， RISC でありながら命令 
コードの効率を重視する傾向がみてとれる. 

DAP / DNA の第一弾は富士通が製造し， DAP / DNA - 
HP としてサンプル出荷されている. DAP / DNA-HP 
は，高速ルータなどの主にネットワーク機器向けであ 
る.動作周波数は 120 MHz で消費電力は約 5 W である. 
今回は，富士通のプロセス技術のライブラリ中で最高 
速なものを採用したが，低消費電力のライブラリを使 
えば，消費電力はさらに下げられる可能性がある.製 
造技術は0.18が m ルールの CMOS プロセスで，チッ 
プ面積は約 15 mm 角である. 

他プロセッサと DAP / DNA の処理性能の比較も発 
表されている.100 MHz 動作の DAP / DNA と 700 MHz 
動作の Pentium IE を比較した場合， AES の暗号化に 
要する処理時間は Pentium ID の1/13， FFT 処理なら 
1/8， DCT 処理は1/32という.最新の Pentium 4 でも 
動作周波数は 3 GHz であるから，汎用チップでもさら 
に4倍程度の性能向上が見込まれるが，それでも，こ 
のような特定分野では， DAP / DNA のほうが高性能 
ということになる. 

アイピーフレックスでは，要求される回路規模の巨 
大化に対応するため ， D AP / DNA -2 (2003 年11月に発 
表予定）ではエレメント数を従来の148個から368個に 
増加させる.また，それでも回路に入りきらない場合 
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DAP/DNA-HP 

図 M DAP / DNA のブロック図 


を想定して，別チップの DNA マトリックスと接続可 
能な専用インターフェースを内蔵するという（図 N ). 

• 東芝の MeP と Elixent 社の D-Fabrix 技術 

東芝は，アプリケーションに応じて機能や回路構 
成を柔軟に変更できるマイクロコントローラ 「MeP 
(Media embedded Processor)J を開発している.簡 
単にいうと， MeP は専用機能を有する CPU コアであ 
る.この CPU コアを複数個つなげて並列処理を行う 
ことで 一つの 機能を実現する. 

MeP コアは，顧客のニーズに応じて命令セットや 
混載メモリ容量などをカスタマイズできる.そのアー 
キテクチヤは東芝独自で，データ長は32ビット，命 
令長は16/32ビット可変長，汎用レジスタの数は16本 
である. 

MeP コアはそれ単体で使用されるのではなく，大 
別して4種類の拡張用周辺回路と組み合わせて専用 
LSI を形成する.拡張用周辺回路には，ユーザーが独 
自に定義できるユーザーカスタム命令 （ UCI ) の実行回 
路，各種ハードウェアアクセラレータ回路， DSP , 
VLIW 型コプロセッサがある. 

MeP の実装例として，東芝は MIPS アーキテクチャ 


DAP/DNA-2 



図 N DAP / DNA -2( 他チップとの結合) 


JL み：：： I ： 

K—H h la AvKU 
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図 0 Intel RCA アーキテクチャの例 


TX 49 コアと MeP を1チップに集積した MPEG -2 デコ 
ーダチップ ( TC 81240 TBG ) を開発している. 

基本的には Tensilica 社の Xtensa と同様な発想であ 
るが， Xtensa との違いは MeP で VLIW 型コプロセッ 
サの拡張用周辺回路をサボートすることにあるとして 
いる.このような拡張用周辺回路を蓄積していくこと 
で差別化を図る戦略であろう. 

その拡張用周辺回路の充実の一環として，東芝は 
2003年1月27日に Elixent 社のダイナミックリコンフ 
イギユアラブル技術「 D-Fabrix RAP(Reconfigurable 
Algorithm Processor )」 を組み込むことで合意した. 
D-Fabrix RAP は専用 DSP の開発で実績がある . CPU 
コア （ MeP ) も周辺回路もコンフイギユアラブルであ 
る点が興味深い. 

D-Fabrix RAP は，4ビット幅の ALU が複数並んだ 
並列型のプロセッサである.隣接する ALU との間は， 
4ビット幅のバスで相互接続されており，周囲の八つ 
の ALU と接続してデータパスを形成する. ALU で行 
う演算とバスの接続を切り替えることにより，目的の 
回路を生成する.なお， NEC の DRP やアイビーフ レ 
ックスの DAP / DNA とは異なり，1クロックでのリコ 
ンフイギユレーシヨン には対応していない. リコンフ 
イギュレーシヨ ンの制御は D - Fabrix 外部の CPU コア 


で行う. 

• SONY 0 VME 

SONY は，ダイナミツ クリコン フィギュアラブル技 
術を携帯型音楽プレーヤである「ネットワークウォー 
ク マン NW - MS 70 D 」 でい ち早く実現した. UC バーク 
レー校の Jan Rabaey 教授が研究していた Pleiades と 
いう技術の流れを汲む VME(Virtual Mobile Engine ) 
と呼ばれる リコン フィギュアラブル技術を採用して 
いる. 

音楽ファイルの復号化に従来は DSP を使用してい 
たが，これに専用論理回路を用レゝれば消費電力を低減 
できることはわかっていた.しかし，音楽ファイルの 
形式にはいろいろな種類があり，その複号化処理を専 
用回路にするためには，その種類と同じ数だけの専用 
回路が必要になる.これを解決するための手法が 
VME である. 

音楽再生では1度に1種類の形式のファイルしか扱 
わない.再生する音楽ファイルの形式に応じて専用回 
路を再構成すれば複数の専用回路を装備する必要は 
ない. 

VME と他のリコンフィギュアラブル技術との相違 
は，演算回路をオーディオ処理に特化することで低消 
費電力を図っている点である.他社がダイナミックリ 
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Appendix 5 コンフィギュアラプルプロセッサの概略 


コンフィギユアラブル技術の汎用性を訴えるのとは対 
照的に，あえて応用分野を絞り込むことで回路の最適 
化を目指している. 

VME 技術を採用するオーディオ LSI が CXR 704060 
である. ATRAC 3 という形式の複号化時の消費電力 
は 4 mW であり，これは DSP を使用する場合の1/5で 
あるという. 

2003年4月には， VME 技術のさらなる展開が始ま 
つた. ネッ トワークウォーク マンに 続き， CD ウォー 
クマン 「 D - NE 1」 と 「 D - NE 9」 にも採用された.使用 
している回路は NW - MS 70 D と同一であるが ， VME 
を制御するソフトウェアが異なるという.また，従来 
の ATRAC 3 や ATRAC 3 plus のフアイル形式のほかに 
MP 3 の再生機能も追加された. D - NE 1 では，低消費 
電力を特徴とする VME 技術により世界最長の150時 
間の再生を実現した. 

さらに SONY は，2004年に発表する携帯型ゲーム 
機 PSP (PlayStation Portable ) に VME 技術を搭載する 
ことを発表している.動作周波数を 166 MHz に向上さ 
せ ( NW - MS 70 D では22.58 MHz ) ,映像処理にも対応さ 
せるという. 

• Intel の RCA 

2003年6月9日， Intel は東京都内のホテルにおいて 
記者説明会を開催し，同社が取り組んでいる無線技術 
について 発表した.その中の 一つに RCA(Reconfigu 
rable Communication Architecture ) と呼ばれる再構 
成可能な通信技術の発表があった. 

現在の無線データ通信はいくつかの問題点を抱えて 
いる.そのため，各国の法令や複数の無線の規格に対 
応するデバイスの供給が必要となる.それを解決する 
技術の一つが RCA である.つまり， XScale や DSP の 
ような汎用プロセッサと専用ソフトウェアと RCA チ 
ップという単一の構成だけで，複数の無線技術に対応 


するという. 

この説明会では， RCA の一例として ， IEEE 802.11 
a / b / g といった三つの規格に対応するため，五つの要 
素を使って回路を再構成するメッシュ構成回路(図 0) 
が紹介された.実際の再構成では，ファームウェアを 
変更して使用する要素の接続を切り替える. 

なお， RCA 技術は ベンダー 向けのものであり， ユー 
ザーに公開する予定はないという.モジュールを別の 
規格に切り替える場合，認証作業が必要になるため， 
動的に再構成を行うことは事実上不可能であるからだ. 

おわりに 

コンフィギュアラブルプロセッサの概略に ついて 説 
明してきた.これらのプロセッサは技術的には興味深 
い.だが，コスト面から見ると，実際に組み込み制御 
に応用されるかというと，かなり微妙なものがある. 
しかし，ソフトウェア技術者がハードウェアを設計で 
きるようになるという点では，将来的には有望かもし 
れない.システムコストよりも設計の短期間化が優先 
される場合は，さらに期待がもてるだろう. 
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浮動小数点演算を高速にこなすための 

FPU のしくみ 


プロセッサが使う数値は整数ばかりではない.浮動小数点演算が必要になる場面も少なくない.浮動小数点演 
算には精度や丸め誤差の問題について注意を払う必要がある.ここでは，2進数で浮動小数点演算を行う場合の 
標準規格である旧 EE 754 について解説した後，実際の演算処理手順について具体例を示して解説する. 


現在のコンピュータにおいて浮動小数点演算はほと 
んどの場合 IEEE 標準規格 (IEEE Std 754-1985) に基 
づいて行われる.この規格が制定される前は，コンビ 
ュータ メーカー が各社独 g の浮動小数点形式を定義し 
て浮動小数点演算ユニット (Floating Point Unit : 
FPU ) を実装していたが，プログラムを他のコンビ 
ュータに移植する場合，データの互換性のなさが問題 
となっていた . IEEE Std 754-1985( 通常 IEEE 754 と 
呼ばれる）は In tel が提唱した浮動小数点の演算の仕 
様を叩き台として議論が重ねられ，1985年に制定さ 
れた.そして現在，浮動小数点の標準規格といえば 
IEEE 754 のことを指すようになった.ほとんどすべ 
ての MPU の FPU もこの IEEE 754 に準拠している. 
その意味で IEEE 754 は必須の教養であるということ 
もできる. 

本章では IEEE 754 が定める浮動小数点のデータ型 
とその処理手順を解説する. 

7旧 EE 754 とは 

• 2進数で浮動小数点演算を行う場合の標準規格 

IEEE 754 とは1985年3月21日に ANSI で採択され 
た 『IEEE Standard for Binary Floating-Point Arith 
metic 』 という 2 進数で浮動小数点演算を行う場合の 
標準規格である.規格書自体は20ページの薄い冊子 
で，具体的な浮動小数点演算の実装方式というより 
も，実装方針を示している.この規格で規定されてい 
る項目は， 

(1) 浮動小数点 データの 形式 


(2) 加減乗除，平方根，剰余，比較演算 

(3) 整数-浮動小数点データ間の形式変換 

(4) 異なる浮動小数点形式間の変換 

(5) 浮動小数点と10進ストリング間の形式変換 

(6) 非数 ( NaN ) を含む，浮動小数点例外と処理 
である.しかし，一般に，浮動小数点演算の実装方式 
は確立されており，独自性を発揮する場は少ない.以 
降では IEEE 754 の内容と一般的な演算の実装方式に 
関して説明していく. 

• 浮動小数点データの形式 
IEEE 754 標準は基本データ型として単精度 (32 ビッ 
卜）と倍精度 (64 ビット）の浮動小数点データをサボー 
卜する.これ以外にもビット数の多い拡張精度（拡張 
単精度と拡張倍精度）が定義されているが実装依存な 
ので割愛する.拡張精度の一つの実装である80ビッ 
卜（あるいは96ビット）形式はなかばデファクトスタ 
ンダードだが，ここでは言及しない.単精度の浮動小 
数点形式は 図 1( a ) に示すように，24ビットの符号付 
き仮数部 (s + f ) と，8ビットの指数部 ( e ) で構成され 
る.倍精度の浮動小数点形式は 図 1 ( b ) に示すように， 
53ビットの符号付き仮数部 （s + f ) と，11ビットの指 
数部 （ e ) で構成される.浮動小数点データは，次の三 
つの領域により成り立っている. 

(1) 符号ビット ： s 

(2) 指数部 ： e = E + バイアス値 

(単精度— 0 x 7 f ;倍精度— 0 x 3 ff ) 

(3) 仮数部 ： f = • t ) ilD 2 b 3 t >4. 

(小数点以下第1位以下の値） 

これらの情報で， 
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3130 23 22 〇 


S 

e 

f 

符号 

指数 

仮数 

1 

8 

23 


( a ) 単精度浮動小数点データ形式 

63 62 52 51 〇 


S 

e 

f 

符号 

指数 

仮数 

1 

11 

52 


(b) 倍精度浮動小数点データ形式 


図1浮動小数点の 
データ形式 


± . x 2 E (2 の E 乘） 

のデータを表す.浮動小数点のデータ形式では整数部 
の1を省いて表現している.このような形式で表現で 
きる数を正規化された数（ノーマル数）と呼ぶ.この1 
を省く表現をケチ表現ということもある. 80ビット 
以上の拡張精度はケチ表現ではないが，ここでは説明 
しない. 

一方，整数部が0である， 

± 0. bib 2 b 3 b 4 …… x 2 E (2 の E 乗) 

のようなデータ形式を非正規化数(デノーマル数）と呼 
ぶ.また，この他に， IEEE 754 では非数 （ NaN ), 無 
限大，ゼロという特殊なデータ型を定義している. 

NaN (Not a Number ) とは，指数部 ( e ) が最大値で， 
仮数部 （ f ) が0以外のデータである.さらに， f の最上 
位ビット（小数点以下第1位）が1のときを Signaling - 
NaN ( SNaN ) ，0のときを Quiet-NaN ( QNaN ) と呼ぶ. 
NaN は浮動小数点演算において無効な演算を行った 
場合の結果として用意された記号で数ではない. 
QNaN を用いた演算の結果は QNaN となり，一度 
QNaN が発生するとのちのちの演算を通じて伝播して 
いく. SNaN はユーザーが意図的に与えることのでき 
る NaN であり，それを用いた演算は無効浮動小数点 
演算例外(後述）を発生する.もし無効浮動小数点演算 
例外の発生が禁止されている場合は QNaN を結果と 
する A 

無限大とは，指数部 ( e ) が最大値で，仮数部 ( f ) が0 
のデータである. 数学でいうと ころの 無限大と同様の 
意味をもつ.無限大には，符号 （ s ) によって正の無限 
大と負の無限大がある. 

ゼロとは，指数部 ( e ) と仮数部 （ f ) が0のデータであ 


表1±1.0(ノーマル数の代表)， QNaN , SNaN , 土無限 
太，土ゼロの16進数表現 


+ 1.0 

0x3f 800000 

0x3ff0000000000000 

(単精度） 

(倍精度） 

-1.0 

Oxbf 800000 

Oxbff 0000000000000 

(単精度） 

(倍精度） 

QNaN 

0x7fbfffff 

0x7ff7ffffffffffff 

(単精度，一例） 
(倍精度，一例） 

SNaN 

0x7fffffff 

0x7fffffffffffffff 

(単精度，一例） 
(倍精度，一例） 

+ 〇〇 

0x7f 800000 

0x7ff 0000000000000 

(単精度） 

(倍精度） 

— 〇〇 

Oxff 800000 

OxfffOOOOOOOOOOOOO 

(単精度） 

(倍精度） 

+ 0 

0x00000000 

0x0000000000000000 

(単精度） 

(倍精度） 

-0 

0x80000000 

0x8000000000000000 

(単精度） 

(倍精度） 


る.数学でいうところの0と同様の意味をもつ.符号 
( s ) によって正のゼロと負のゼロがある.比較演算に 
おいては，正のゼロと負のゼロは等しいものとされる. 

以上の，±1.0( ノーマル 数の代表）， QNaN , SNaN , 
土無限大，土ゼロを16進数で表現すると，それぞれ 
表1のようになる. 

• 丸めモード 

丸めとは，表現する数値があるデータ範囲内に入る 
ように仮数部の LSB (Least Significant Bit ) に対して 
切り上げまたは切り捨てを行い，近似値を求めること 
である. IEEE 754 は RN (Toward Nearest ) , RZ 
(Toward Zero ), RP (Toward Plus Infinity ), RM 
(Toward Minus Infinity ) の 4 種の丸めモードを定義 
している.丸めモードの意味を表2に示す. 

ただし， IEEE 754 では丸めの実装方式は規定してい 


注： SNaN と QNaN を区別する形式は IEEE754 では規定されていない.ここでは，一般的な形式にしたがった. 
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表 2 丸めモード 


RM 

記号 

意 味 

00 

RN 

表現可能なもっとも近い値に結果を丸める. 
もっとも近い値が二つある場合は，最下位 
ビットが〇の値のほうを選ぶ 

01 

RZ 

ゼロの方向に丸める.いわゆる切り捨て 

10 

RP 

+ 〇〇の方向に丸める 

11 

RM 

-〇〇の方向に丸める 


ない.しかし，一般的には， FPU 内で丸めを実現す 
るために，浮動小数点データに丸め用の補助ビットを 
3ビット追加して演算を行う.それが Guard , Round , 
Sticky ビットである. Guard と Round については単に 
演算精度を増やすだけであるが， Sticky には特別な意 
味がある.演算の途中結果で右シフト（桁合わせのた 
め）を行った場合，シフトアウトされるあふれビット 
のす ベての 論理和(つまり蓄積した値)が Sticky になる. 

IEEE 754 において浮動小数点の仮数部を扱う時， 
あたかも無限の精度があるかのように扱うことが要請 


される.その具体的な手法には言及されていないが， 
Guard , Round , Sticky ビットがそれを実現する一つ 
の手法である.この場合，物理的には3ビットしか余 
分なビットがないが， Sticky 以下の重みの（右にある） 
ビットはすべて Sticky ビットに代表される.それは 
図2のようなイメージである. Guard , Round , Sticky 
ビットは，演算前の仮数を3ビット左シフトして生成 
する.したがって，これらのビットの初期値は〇であ 
り，桁合わせなどで右シフトが発生するときに変化す 
る（上位の値が繰り下がってくる，ただし Sticky ビッ 
卜はシフトアウトされる値との論理和） • 

丸めは，結果の符号，仮数の最下位ビット， Guard , 
Round , Sticky ビットの値と丸めモードとの関係で行 
われる.具体的には図3に示すような関係を見て，仮 
数の切り上げ，切り捨てを決定する. 

なお，実装によっては， Guard ビットと Sticky ビツ 
卜のみで精度を維持する場合もある. 


-仮想的に無限長の精度- 

実際に扱ラビット-- 仮想的なビツト(無限長) 


1 

1 

仮数 1 

1 

G 

R 

S 

r t n n r , 

ill I 窗 

I i 瞧 i 雇 

1 喔 i II 

ill 1 祖 

結果として格納するビット- 


' - 1 

_ ノ 


図 2 Guard, Round, R : Round 丸めによる加算 論理和 (OR) 

Sticky ビットの意味 S : Sticky 


図3丸めの実現 


丸め 

モード 

符号 
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1 

1 

1 

| 

仮数部| 
LSB I 

Guard 

! Round 
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1 

1 

1 
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1 

1 
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\ 
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| 

切り上げ 

切り捨て 
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1 
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1 

1 

0 

1 

1 

X 

1 
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1 

1 
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1 
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1 

1 
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1 
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1 

1 

1 

0 

1 

1 

1 

1 

1 
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1 

1 

1 

1 

1 

1 

0 

1 

丄 

0 

1 

1 
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1 

1 

0 

1 

1 

1 

I 
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0 

1 

1 

0 

1 

1 
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1 

X 

1 

1 

X 

i 
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1 
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1 

1 

X 

1 

1 
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1 

1 

X 

1 

1 

X 

1 

1 

t 
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0 

1 

1 

X 
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1 

0 

i 

1 

1 

' I 

1 

X 

1 

1 
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1 
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1 
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R : LSB に加算する値 


R=Guard & (LSB I Round I Sticky) 


R=0 


R= (—Sign) & (Guard 丨 Round I Sticky) 


R=Sign & (Guard I Round I Sticky) 


x : don’t care 
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•符号ビットに関する 注意 

IEEE 754 では結果がゼロになる場合の符号につい 
て厳密な規定がある.比較演算において， - 〇と+〇 
は同じものとみなされるので，ここまで神経質になる 
理由はよくわからない • ともかく， IJEEJE 754 では次 
のように記述されている. 

『異符号である二つのオペランドの和（あるいは同符 
号のオペランドの差）は正確にゼロである.和（あるい 
は差）の符号は，ほとんどの丸めモードでプラス （+ ) 
と 7 ょる.たたし， — 方向の丸めモードにおいてはマ 
イナス （一） となる.しかし， X+X = X- ( - X) の場 
合は， X がゼロであっても，結果は X の符号と同じに 
なる.また， V - 0の結果は _ 0である . J 

これは，オペランドがゼロでない場合，丸めモード 
が-〇〇方向以外の結果は+〇, - 〇〇方向では-0となる 
ことを意味する.ただし，加減算の両方のオペランド 
がゼロの場合は，丸めモードにかかわらず，第 i オペ 
ランドの符号が結果の符号になる.つまり， （+0) 十 
(+0) = +0， （+0) - (-〇) = +〇，（-〇) + (-〇) = -0， 
(-〇) - ( + 0) = 一0である. 


—浮動小数点演算命令の処理手順 

• 浮動小数点演算に共通する処理手順の概略 

ここでは，浮動小数点演算全体に共通する処理手順 
の概略を示す. FPU は次に示す手順をハードゥェア 
で実現する.ハードゥェアの概略を図4に示す. 

(1) オペランド処理 

命令に よって 指定された， 一つ または 二つの ソース 
オペランドを，符号，指数，仮数の部分に分解す ると 
ともに，特殊データ型のいずれに属するかを判定す る. 
もし，無限大または NaN と判定された場合は， その 
ための処理(後述）を行う.もし，デ ノーマル 数と判断 
された場合は，指数の精度を無限大と 考えて， 演算前 
に正規化が実行される. 

(2) 演算処理 

(1) で得られたオペランドを基に演算が実行される. 
演算は Guard-Round-Sticky と呼ばれる表現形式上で 
の最下位ビットよりも小さな位取りのビット群を含め 
て実行される.無効浮動小数点演算例外 (Invalid 
Floating Operation Exception), 浮動小数点ゼロ除算 


図4 FPU の構成例 
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例外 (Floating Point Zero Divide Exception) は，例外 
が検出された時点で例外処理が実行される. 

比較演算は，「<」，「=」，「>」，「比較不能」とい 
うフラグを生成する.比較不能とは片方，または両方 
の ソース オペランドが NaN(SNaN または QNaN) であ 
る場合である. 

(3) 結果の正規化 

(2) で得られた結果を正規化する.正規化の結果， 
仮数部 (Guard-Round-Sticky を含めて）が0となった場 
合は， （8) の処理を実行する. 

(4) 結果の丸め 

(3) で得られた結果を，丸めモードにしたがって丸 
める. （3) で得られた結果も （6) の処理で使用する可 
能性があるので保存しておく. 

(5) 結果の分類 

(4) の結果，得られた指数部の値が0以下の場合は 

(6) ，最大値より大きい場合は (7) の処理を実行する. 
このいずれでもない場合，結果は正規化数とみなされ， 
(9) の処理を実行する. 

(6) アンダフロー処理 

(3) で得られた結果を，指数部の値が1となるよう 
にスケーリング（指数部の値を1増加すると，仮数部 
は1ビット右シフトされる：非正規化）し，その結果 
を丸めモードにしたがって丸める.この丸めで，結果 
が正規化数またはゼロになることがある.正規化数の 
場合は（9)，ゼロの場合は （8) の処理を実行する.そ 
れ以外の場合は表現可能な最小値より小さいことにな 
り，アンダフロー処理が実行される.その後， （9) の 
処理を実行する. 

(7) オーバフロー処理 

結果は表現可能な最大数を越えており，オーバフ 
ロー処理が実行される.その後， （9) の処理を実行 
する. 

(8) ゼロ処理 

結果はゼロになる.指数部，仮数部を0に設定する. 
その後， （9) の処理を実行する. 

(9) 精度落ち処理と結果格納 

(4) または （6) における丸め処理で精度落ちが発生 
した場合，あるいはオーバフローした場合に「精度落 
ち」が発生する.符号，指数，仮数の三つの部分に分 
かれている結果が組み立てられ，デスティネーション 
オペランドに格納される. 

(10) トラップ発生の判定 

(6)，（7)， （9) においてトラップが発生すると判断 


された場合（トラップ条件を満たし，かつトラップが 
許可されている）は，所定の例外ハンドラに制御を 
移す. 

以上が演算の処理手順であるが，現実の実装におい 
てはハードウェアの簡略化のために詳細な処理を省略 
することもある.たとえば， 

•ソースオペランドがデ ノーマル 数，無限大， NaN 
の場合は例外を発生させて例外ハンドラでのソフト 
ウェアによる処理に任せる. 

春演算結果がデノーマル数になる場合は無条件にゼロ 
に丸める. 

•演算の途中の指数の値でオーバフローやアンダフ 
ローを検出する.たとえば，丸めの直前や直後の指 
数の値でオーバフローやアンダフローを決定してし 
まろ. 

などが普通に行われる，具体的にどうなっているかを 
知るには，各 MPU のマニュアルを参照する必要が 
ある. 

• オペランドが無限大または NaN の場合の処理 

IEEE754 は無限大や NaN に対する演算も規定して 
いる.これは次のような点を考慮して行われる. 

(1) 演算結果の格納 

IEEE 標準規格では，いかなる種類の ソースオペラ 
ンドが与えられても，例外が発生しなければ，何らか 
の結果がデステイネーシヨンオペランドまたはステー 
タスフラグに格納される.とくに，無限大と NaN に 
関しては， IEEE 標準規格の定める演算結果（定数値） 
を格納しなければならない. 

(2) 無効浮動小数点演算例外の発生 

無限大および NaN に対する演算は，無効浮動小数 
点例外の発生を伴うことが多い.この点の考慮も必要 
である. 

(3) 無限大の取り扱い 

Draft 1 .0 以前の IEEE 標準規格では，無限大の取り 
扱いに2種類のモードをもたせている. 

• Projective モード 

正の無限大と負の無限大は区別されず等価なものと 
して扱う. 

• Affine モード 

正の無限大と負の無限大を区別する. 

現在の実装では， Affine モードをサポートすること 
を前提としていることが多い. 

無限大との演算は数学的なイメー ジと同じ結果にな 
る.つまり，無限大に有限値を加減算しても無限大で 
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あるし，正の無限大に正の無限大を加算しても正の無 
限大である.ただし，正の無限大から正の無限大を減 
算するような，数学的にも意味のない演算は，無効浮 
動小数点演算となる. 

3 浮動小数点演算で発生する例外 

• 旧 EE 754 での例外の定義 

IEEE754 は次の五つの例外が「検出されるべき」 
として定義されている. 

•無効浮動小数点演算例外 
(Invalid floating Operation Exception ； 
•浮動小数点ゼロ除算例外 
(Floating Zero Divide Exception) 

• 浮動小数点オーバ フロー 例外 
(Floating Overflow Exception ) 

• 浮動小数点アンダフロー例外 
(Floating Underflow Exception) 

• 浮動小数点精度落ち例外 
(Floating Precision Exception) 

これらの例外に ついて， 次の点を考慮しなければなら 
ない . 

(1) 例外発生条件 

五つの例外事象の発生条件が定められている. 

(2) 例外事象通知 

五つの例外事象の各々に対し，それらを独立に通知 
することのできる五つの条件フラグが必要である. 

(3) トラップ発生指定 

五つの例外事象の各々に対し，それらの発生に伴い 
トラップを発生させるか否かを独立に指定することの 
できる五つのマスクフラグが必要である.例外事象が 
発生しても，マスクフラグによってトラップの発生が 
禁止されている場合は例外にならず，所定の値がデス 
イネーシヨンオペランドに格納されて，演算は続行さ 
れる. 

(4) 結果格納 

五つの例外事象の各々に対し，トラップの有無に対 
応した値をデステイネーシヨンに格納する. 

(5) トラップ命令 

五つの例外事象の発生に伴うトラップを，保存され 
た例外事象の履歴とトラップ発生の指定に基づいて発 
生させる専用命令をもつ. 

• 例外の内容 

次に五つの例外について説明する. 


(1) 無効浮動小数点演算例外 （Invalid Floating Opera 
tion ヒ xception ) 

この例外は無限大や NaN との演算，数学的に意味 
のない演算(〇/〇など）を行った場合や，整数への形式 
変換時の変換不正の場合に発生する.具体的には以下 
のような場合がある. 

• ( + 〇〇) + ( — 0〇)， （ 一 〇〇) — （ _ 〇〇、 

• ± 〇 X ± 〇〇 

• ±〇 + ±〇， ±〇〇+±〇〇 

• オペランドに順序付けがない場合での大小比較 
•オペランドに SNaN を含む算術命令 
•オペランドが SNaN の場合の比較と浮動小数点への 
変換（オペランドが QNaN の場合はその値を伝播す 
るだけで例外にはならない） 

•オペランドが負の平方根 
この例外において，トラップが発生する場合はデス 
ティネーションは変化しないが，トラップが発生しな 
い場合はデスティネーションには NaN ( QNaN ) が格納 
される. 

(2) 浮動小数点ゼロ除算例外 （Floating Zero Divide 
Exception ) 

ゼロ除算例外は，正規化数あるいはデノーマル数 
(ゼロでない有限値）を0で除算する場合に発生する. 

トラップが発生する場合，デスティネーションは変 
化しないが，トラップが発生しない場合，デスティ 
ネーションには無限大が格納される. 

(3) 浮動小数点オーバフロー例外 (Floating Overflow 
Exception ) 

オーバ フロー例外は，演算命令や変換命令において， 
結果の丸め後の値が有限であり， デスティネーション 
で表現可能な最大数よりも大きくなった場合に発生す 

る. 

トラップが発生する場合はデスティネーションは次 
のようになる. 

• 変換命令の場合は変化しない 
• 演算命令の場合は補正された指数部(後述）と仮数部 
が格納される 

トラップが発生しない場合にはデスティネーション 
には次の値が格納される. 

•丸めモードが Toward Zero のとき，表現可能な絶 
対値が最大の正規化数 

•丸めモードが Toward — 〇〇で，かつ結果の符号 
が+のとき，正の表現可能な最大数 
•丸めモードが Toward +〇〇で，かつ結果の符号が 
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表 3 オーバフロ ー/アンダフロー例外発生時の補正値 



単精度 

倍精度 

オーバフロー 

-192(-0 xC 0) 

-1536(-0 x 600) 

アンダフロー 

+ 192(+0 xC 0) 

+ 1536( + 0 x 600) 


-のとき，負の表現可能な最大数(絶対値が） 
♦その他の場合は無限大 

⑷浮動小数点アンダフロー例外 (Floating Underflow 
ヒ xception ) 

アンダフロー例外は，転送命令，演算命令，変換命 
令において，結果を丸めた値が，デスティネーション 
で正規化数として表現可能な最小数より小さくなった 
場合に発生する. 

トラップが発生する場合，デスティネーションは次 
のようになる. 

• 変換命令の場合は変化しない 
• 演算命令の場合は補正された指数部(後述）と仮数部 
が格納される 

トラップが発生しない場合，デスティネーションは 
丸め モー ドによってデ ノーマル 数または ゼロが 格納さ 
れ，その丸めによって精度落ちがあった場合のみアン 
ダフローフラグがセッ トされる. 

•丸めモードが Toward Zero のときゼロ 
•丸めモードが Toward - 00 で，かつ結果の符号が 
-のとき，正の表現可能な最小数 
•丸めモードが Toward +〇〇で，かつ結果の符号が 
+のとき，負の表現可能な最小数(絶対値が） 
•その他の場合はゼロ 

(5) 浮動小数点精度落ち例外 （Floating Precision 
Exception ) 

精度落ち例外は，演算命令や変換命令における結果 
の丸めにおいて，その値が不正確 ( Inexact ) になった 
場合に発生する.精度落ち例外は，ほかのすべての卜 
ラップが発生しなかった場合に発生する. 

トラップの発生の有無にかかわらず，精度落ちフラ 
グが セットされ， デスティ ネー ションに は丸めた 結果 
が 格納される. 

精度落ち例外は，丸め前または丸め後の Guard ， 
Round , Sticky ビットのいずれかが1であった場合に 
発生する.ということは，ほとんどの演算（仮数部の 
右シフトがある場合）において精度落ち例外となる. 
あるいは，演算において オーバ フロー やア ンダ フロー 
が発生する場合や，型変換で結果が目的のビット数に 
収まらない場合に精度落ち例外となる. 


•オーバフ□一例外，アンダフ□一例外発生時の 

結果 

IEEE 754 では， オーバフロー 例外， アン ダフ ロー 
例外，精度落ち例外発生時には，結果を正しく丸めて 
返すことが要請される.これは，結果がデステイネー 
ション形式に合致するか否かを示す情報が付加され 
る.精度落ち例外に関しては，結果は自明である（得 
られた結果が精度落ちしていると表明しているだけ）. 
しかし，オーバ フロー 例外，アンダフ ロー 例外に関し 
ては，なるべく精度を保持するためにいろいろな手法 
が考案されている. 

たとえば，初期の実装には 表 3に示す補正バイアス 
値を加算して指数部を補正した値を返すものもあっ 
た.ここで示された値によって指数部を補正すると， 
結果は必ず正規化数として表せる. 

しかし，実際の FPU では補正した値ではなく近似 
値がほしい場合が多いので，オーバ フロー 時は無限大 
または最大 ノーマル 数，アンダフロー時は負の無限大 
またはゼロを結果とすることが最近の流行である.こ 
れは，いわゆる飽和処理である. 

•遅延トラップ発生 

上述の五つの例外事象の発生にともなうトラップ 
は，例外の発生した命令の直後に発生する. MPU に 
よっては，保存された例外事象の履歴とトラップ発生 
の指定に基づいて例外を発生させる命令がある.つま 
り，その命令を実行した時点で例外が発生していれば 
トラップする.これによりトラップを命令単位より大 
きな単位(たとえば手続き単位)で発生するように制御 
できる. 

• 例外の発生 

通常のプロセッサでは，上述の五つの例外の発生を 
示すための5種のフラグと，それに対応する5種のマ 
スクがある.たとえば， 

•無効浮動小数点演算例外 …V 

•浮動小数点ゼロ除算例外 …I 

•浮動小数点 オーバフロー 例外 …〇 

•浮動小数点アン ダフロー 例外 …11 

•浮動小数点精度落ち例外 …I 

というフラグが定義されているとし，対応するマスク 
を，それぞれ MV , MZ , MO , MU , MI とする•こ 
の場合，実際に例外によるトラップが発生するのは 
(V and MV ) or (Z and MZ ) or (0 and MO ) 
and (U and MU ) and (I and MI ) 

の値が 1 になる場合である.なお，各フラグとマスク 
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はソフトウェアで値を設定できる.また， V ， Z ， 0, 
U , I の各フラグは演算結果によって設定し直される 
のではなく，それまでの値を蓄積していく.つまり， 

新フラグ— （旧 フラグ） 0 R (演算結果のフラグ） 
という イメージ である.したがって，フラグの値がい 
ったん1になると，ソフトウェアで0にクリアするま 
で1のままである. 

4演算精度について 

• 演算精度 

IEEE 754 における浮動小数点演算は，浮動小数点 
データが 無限の精度をもっているように行われる.こ 
のため中間の演算の精度をどのような精度で行おうと 
も結果は同じにならなければならない. 

たとえば，単精度の浮動小数点演算をそのままの精 
度で実行しても，倍精度で実行しても，あるいは内部 
的に80ビット（拡張精度）で実行しても，結果を丸め 
て単精度にした場合はすべて同じ結果にならなければ 
ならない.これは， Guard , Round , Sticky ビット 
(特に Sticky ビット）を付加することで実現できると 
されている.ただし，積和演算のように，乗算の後に 
加算という2回以上の演算を実行するときは，実行速 
度を上げるために，1回目の演算結果を丸めずにその 
まま2回目の演算を行う場合がある.このような場合 
は，内部の演算精度によって結果が異なることが 
ある. 

また，逆数を計算する場合も，データを 1.0 から除 
算するだけなので，どのように計算しても同じ結果に 
なるはずであるが，実装では結果の一致性を保証しな 
いことが多い.これは逆数の高速近似アルゴリズムで 
演算を実行する場合を考慮してのものである. 

• (a + b ) + c 关 a + (b + c ) の話 

浮動小数点演算には丸め誤差が付き物である•この 
ため，演算順序を変更すると結果が異なることがある. 
数値演算の理論によれば，丸め誤差を最小にするため 
に演算は加算をまとめ，位の大きさの似た数値から 
(それも小さいものから）順次加えていくこと推奨され 
る.位の大きさの似た数値どうしの減算は，有効数字 
が大幅に減少するので，できるだけ避けなければなら 
ない.あるいは，丸め誤差を最小にするために，ピポ 
ットと呼ばれるオフセットをわざわざ減じて位の大き 
さを揃えることも常識である.このような意図をもっ 
て書かれたプログラムの順序を変更することは許され 


ない. 

しかし，これは浮動小数点演算をコンパイラが最適 
化するときに問題になってくる.整数には丸め誤差が 
ないので，自由自在に順序の入れ替えが可能だった 
が，浮動小数点演算の順序を入れ替えるとプログラマ 
の意図しない結果を生じることがある.このへんは最 
適化を行うに際してのトレードオフとなっている. 

5浮動小数点演算処理の実際 

• 実際に計算方法 

以降では，加算，減算，乗算，除算，平方根，32 
ビット整数から単精度浮動小数点への変換，32ビッ 
卜整数から倍精度浮動小数点への変換，単精度浮動小 
数点から32ビット整数への変換，倍精度浮動小数点 
から32ビット整数への変換，比較に関して処理を実 
現する手順を示す.簡単のため，多くの場合は入力は 
ノーマル 数であることを仮定している.特殊データ型 
の処理はここでは言及しない. 

浮動小数点演算の手順を大雑把に示すと， 

•アンパック（符号，指数部，仮数部に分解） 

♦演算 

•丸め 

*リパック（符号，指数部，仮数部を結合） 

という流れになる.アンパック，丸め，リパックにつ 
いてはほとんどの演算について共通である.アンパッ 
クとリパックの処理を図5に示す. 

以降の処理では， アンパック 後の ソース 1， ソース 2 
の符号，指数，仮数 (1 を付加したもの）を，それぞれ， 
fs _ sgn , is _ exp , fs 一 man , 
ft 一 sgn , ft _ exp , ft _ man , 

と仮定する.また，リパック直前の符号，指数，仮数 
を，それぞれ， 

fd _ sgn , fd _ exp , fd _ man , 

と仮定する.また，仮数 ( fs _ man , ft _ man , fd _ man ) 
には Guard , Round , Sticky の 3 ビットが下位に付加 
されているものとして読んでほしい.指数はバイアス 
(倍精度： 0 x 3 ff , 単精度： 0 x 7 f ) 付きである. 

•加算 

まず，10進数で加算のアルゴリズムを検討しよう. 

二つの浮動小数点を， 

a.bbbb x io c ( a 辛〇 ) 

d.eeee x 10 l (d ^ 0) 

とする（小数点以下は 4 桁と仮定).数学で習ったよう 
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の判定 










Sgn Exp 〇 … 〇 1 Frac 000 


符号 


指数 


仮数 



図5アンパック/リパック処理 


に，指数形式で表現された数の加算は指数部を等しく 
して行う.指数の大きいほう，小さいほうのどちらに 
合わせても いいの だが，結果は指数の大きいほうと， 
オーダー的に，ほぼ等しくなるので，大きいほうに合 
わせる.指数の小さいほうを大きいほうに合わせるた 
めには指数の差だけ仮数部を右シフトする. いまの 場 
合，10進数なので， 

10— (c - f) ( c>f と仮定） 

を仮数部に乗算することに等しい.その結果，二つの 
数は， 

a.bbbb x 10 c 

O.eeee x io c 

となる.これにより加算結果は， 

g-gggg x 10 c ( g.gggg = a.bbbb + O . eeee ) 
となる.また，仮数が異符号(今は両方とも正として 
いるが)の場合は， 

O.Ohhh x 10 c ( O.Ohhh = a.bbbb - O . eeee ) 

という結果になる.この場合は正規化するために，仮 
数部を10 2 倍（これは左シフトに相当）して， 
h . hh 00 x 10 (C - 2 ) 

という結果になる.10進数の場合はこれで終わりで 
ある. 

しかし，2進数の場合は，加算後の仮数の整数部 
(小数点の左）が桁上がりする可能性がある.つまり， 
無理やり10進数でいえば， 

11 - jjjj x 10 c 

という形式になることがある （10 進数で計算する場合 
はあり得ない）.この場合，正規化するためには仮数 
部を10 _1 倍することになり，結果は， 


i.ijjj x 1〇 


(C + 1) 


となる.以上の計算を2進数で行う（リスト 1). 

加算のアルゴリズムは，指数部の値が大きいほうに， 
小さいほうを桁合わせして加算するものである.アン 
パックとリパックを除く手順を次に示す.特殊 データ 
型の処理や， オーバフロー， アンダフ ローの 検出処理 
は省略してある. 

なお，加算においては ソースオペランドの 順序を入 
れ替えても結果は変わらない.このため，たとえば， 
第2 ソースオペランドの 仮数部のほうが小さくなる よ 
うに，あらかじめ ソースオペランドを 入れ替えておけ 
ば，桁合わせ用の右シフタは，第2 ソースオペランド 
用に一つあればよい.リスト1の説明では，簡単のた 
めに，それぞれの ソースオペランド ごとに 二つの 右シ 
フタがあるものとしている. 

また，仮数部の加算処理をまともに実装すると，ソー 
スオペランドの符号の組み合わせによっては，1クロ 
ックで， 

符号反転—加算 — 符号反転 
と，非常に重い処理をしなければならない.これは， 
二つのソースオペラン ドの符号と大小関係と結果の符 
号を考慮すると，1回の加算または減算で処理するこ 
とが可能である.しかし，アルゴリズムをわかりにく 
くするので，今回はこの手法を説明していない. 

ところで，結果の符号は，基本的には仮数部の加算 
結果と同じでよいが，結果がゼロになる場合は，上述 
したような規則がある.ここではこの処理は省略して 
ある. 

•減算 

減算は，第2ソースオペランドの符号を反転して加 
算と同じ処理をするのみでよい. 


アンハツク 
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リスト1加算処理 


if(fs 一 exp < ft_exp) then 
fd_exp = ft_exp; 

ts_man = Sticky 付き右シフト fs_man を （ ft_exp-fs_exp) ビット ; 

else 

fd_exp = fs_exp ； 

ft_man = Sticky 付き右シフト ft_man を (fs_exp - ft_exp) ビット； 
endif 


( a ) 桁合わせ 


fd_man = {0...0, fd_man} /* 64 ビット長を仮定 */ 

clz = fd_man を MSB (bit63) から下位に連続する 0 の数を計数 ; 

/* 1 の位置を検出 */ 
if ( 倍精度 ） then 

if (clz == 7) then /* 桁上がりした ★/ 
fd 一 exp = fd_exp + 1 ； 

td_man = Sticky 付き右シフト fd_man を 1 ビット； 

else 

fd_exp = fd 一 exp - (clz-8) ; 
fd_man = 左シフト fd_man を （ clz-8) ビット； 
endif 

else 

if (clz == 36) then /* 桁上がりした */ 
fd_exp = fd_exp + 1; 

td_man = Sticky 付き 右 シフト fd_man を 1 ビット； 

else 

fd_exp = fd_exp - (clz-j7 )； 
fd_man = 左シフト fd_man を （ clz-37) ビット； 
eridi f 
endif 


if(fs_sgn == 

1)then /* 負なら */ 

fs_man = 

-fs_man ； 

endif 

if(ft_sgn == 

1)then /* 負なら */ 

ft_man = 

-ft 一 man; 

endif 

fd_man = fs_ 

man + ft_man ； 

if(fd_man < 

0) then /* 絶対値 */ 

fd_sgn = 

1; 

fd_man = 

-fs_man ； 

else 

fd 一 sgn = 

0; 

endif 


( b ) 加算 


fd_man = fd_man を丸めモードに従って丸める； 
if ( 倍精度 ） then 

if (fd_man[56]==1)then /* 桁上がりした V 
fd_exp = fd_exp + 1; 
td—man = 右シフト fd_man を 1 ビット； 
endif 

else 

if (fd_man[27]==1)then /* 桁上がりした */ 
fd 一 exp = fd_exp + 1 ； 
td_man = 右シフト fd_man を 1 ビット； 
endif 
endif 


( c ) 正規化 


( d ) 丸め 


•乗算 

例によって，10進数で乗算のアルゴリズムを検討 
しよう.二つの浮動小数点を， 
a.bbbb x 10 C (a ^ 0) 

d.eeee x 10 f (d ^ 0) 

とする（小数点以下は 4 桁と仮定).乗算の場合の結果 
は簡単で， 

( a.bbbb x d . eeee ) x 10 (c + f) 

となる.このときの仮数部は， 
g-gggggggg 
または， 

hh.hhhhhhhh 

となる.正規化をすると，それぞれ， 

g . gggg x io( c + f ) 

または， 

h . hhhh x I 0 (c + f + 1) 

となる.つまり，結果の仮数部は仮数どうしの乗算結 
果の上位をそのまま取り出しただけである.仮数部を 
固定小数点として乗算すると考えると，5桁と5桁を 
乗算して9桁または10桁になる乗算結果を，4桁また 
は5桁分右シフトすることに等しい. 

乗算は，仮数部どうしを乗算して，結果を右シフト 
( Sticky 付き）して正規化して丸めればよい.結果の符 


号は，ソースオペランドの符号の排他的論理和になる. 
結果の指数は，ソースオペランドの指数（バイアスを 
除く）を加算したものである.アンパックとリパック 
を除く手順をリスト2に示す.特殊データ型の処理や， 
オーバフロー，アンダフローの検出処理は省略して 
ある. 

なお，丸め処理は加算の丸め処理と同じである. 

•除算 

まずは10進数で乗算のアルゴリズムを検討しよう. 
二つの浮動小数点を， 

a.bbbb x 10 C (a * 0) 
d.eeee x I 0 f (d ^ 0) 

とする（小数点以下は 4 桁と仮定).除算の場合の結果 
は， 

( a.bbbb + d . eeee ) x 10 ^ c _ f) 

となる.このときの仮数部は， 
g . gggggggg .... 

または， 

O . hhhhhhhh •… 

となる.正規化をすると，それぞれ， 

g . gggg x I 0 (c-f) 

または， 

h . hhhh x I 0 ( c _ f 一 1 ) 
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リスト 2 乗算処理 (乗算と正規 化） 

fd_sgn = fs_sgn xor ft_sgn ； 
fd 一 man = fs 一 man X f t_man; 
if ( 倍精度 ） then 

fd 一 exp = fs 一 exp + ft 一 exp - 0x3 ff ； 
fd_man = Sticky 付き右シフト fd_man を 55 ビット； 
if (fd_man[56] == 1)then /* 桁上がりした */ 
fd 一 exp = fd 一 exp + 1 ； 
td_man = 右シフト fd_man を 1 ビット； 
endif 

else 

td_exp = fs_exp + £t_exp — Ox/f; 
fd_man = Sticky 付き右シフト fd_man を 26 ビット； 
if (fd_man[27]==1)then /* 桁上がりした */ 
fd_exp = fd_exp + 1; 
td_man = 右シフト fd_man を 1 ビット； 
endif 
endif 


リスト3除算処理 


fd_sgn = fs_sgn xor ft_sgn; 
if ( 倍精度 ） then 

fd 一 exp = fs 一 exp - ft_exp + 0x3ff; 
fd 一 man = fs_man + ft_man (ループ 56 回）； 
if (fd_man [56]==1)then /* 衍上がりした */ 
fd 一 exp = fd_exp + 1 ； 
td_man = 右シフト fd_man を 1 ビット； 
endif 

else 

fd 一 exp = fs_exp + ft_exp - 0x7f; 
fd_man = fs 一 man + ft—man (ループ 27 回）； 
if (fd_man [27]==1)then /* 衔上がりした */ 
fd 一 exp = fd 一 exp + 1 ； 
td_man = 右シフト fd_man を 1 ビット； 
endif 
endif 


( a ) 除算と正規化 


q = 0;"商*/ 
r = 0；/* 剰余 */ 
repeat 繰り返し回数 then 
r = fs_man - ft_man ； 
if(tmp ^ 0) then 
q = q + 1； 
fs 一 man = r ； 
endif 

fs_man = 左シフト fs_man を 1 ビット； 
q = 左シフト q を 1 ビット； 

endrep 

if(r # 0) then /* Sticky がある */ 
q = q or 1; 
endif 


(b ) 除算のアルゴリズム 


となる.仮数部の除算を引き戻し法などで計算する場 
合，繰り返し回数を多くすればいくらでも精度を得る 
ことができる.しかし，今の場合は小数点以下4桁が 
求まればいいので5回の繰り返しになる.ただし，5 
回では， 

O.hhhh 

という結果(商）になったとき，正規化によって左シフ 
卜した場合，最下位の値がわからない.このため，必 
要な回数+1回の繰り返しを行い，商を， 


II "^7 4 A ^ f-j mmmmmmmmmmmrnmmmmmmmimmmmmmmmmmmmmmmmmmmmmmmmmmKmmim 


fd 一 sgn = 0; 
if ( 倍精度 ） then 

if ( (fs_exp-0x3f f) の匕ット〇が 1)then 
fs_man = 左シフト fs_man を 1 ビット； 
endif 

fd_exp = (fs_exp-0x3ff)/2 + 0x3 f f; 
fd_man = fs_man を開平計算 ( ループ 56 回）； 
if (fd_man[56] == 1)then /★ 桁上がりした */ 
fd_exp = f d_exp + 1; 
td_man = 右シフト fd_man を 1 ビット； 
endif 

else 

if ( (fs_exp-0x7f) のヒット 0 が 1)then 

fs_man = 左シフト fs_man を 1 ビット； 
endif 

fd 一 exp = (fs_exp-0x7f)/2 + 0x7 f; 
fd_man = fs_man を開平計算 ( ループ 27 回）； 
if (fd_man[27] == 1)then /* 桁上がりした */ 
fd 一 exp = rd_exp + 1 ； 
td_man = 右シフト fd_man を 1 ビツト； 
endif 
endif 


( a ) 開平計算と正規化 


i.iiii 


JJ-JJJJ 

という形式にしておくほうが正しい精度が求まる.除 
算を行った時の剰余が0でない場合は，割り算を繰り 
返すと0でない位の数が存在するということなので， 
Sticky が1になるということである.つまり仮数部の 
最下位を1と OR しておく. 

除算は，仮数部どうしを除算(正規化できるまで繰 
り返す）して，結果を丸めればよい.結果の符号は， 
ソースオペランドの符号の排他的論理和になる.結果 
の指数は，ソースオペランドの指数を減算したもので 
ある.アンパックとリパックを除く手順をリスト 3( a ) 
に示す.特殊データ型の処理や，オーバ フロー，アン 
ダフ ローの 検出処理は省略してある.また，除算のア 
ルゴリズムの一例を別途示す（リスト 3 ( b ))• 

加算の丸めと同じである. 

•平方根 

まずは10進数で平方根のアルゴリズムを検討しよ 
う.与えられた浮動小数点を， 
a.bbbb x 10 c (a * 0) 

とする（小数点以下は 4 桁と仮定).平方根の場合の結 
果は， 

(a.bbbb) (1/2) x l0 (c/2) 

となる.指数部が2で割りきれないと困るので，指数 
部が奇数の場合は，あらかじめ仮数部を10倍してお 
いて（指数部は1少なくなる）， 
ab.bbbO x 10 ( c 一 1 ) (a * 0) 

の平方根を求めればよい.仮数部の平方根が， 
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b = 0; 


b = 0; 

q = 0; 


q = 0; 

r = 0; 


r = 0; 

repeat 56 then 


repeat 27 then 

s = ( 右シフト fs_man を 55 ビット ） and 3; 


s = ( 右シフト fs_man を 26 ビット ） and 3; 

/* 下位 2 ビット */ 


/* 下裣 2 ビット */ 

r = r + s ； 


r = r + s ； 

t = r - (b+1); 


t = r - (b+1); 

if(t ^ 0) then 


if(t = 0) then 

q=q+l; 


q=q+i; 

r = t; 


r = t; 

b = b + 2; 


b = b + 2; 

endif 


endif 

fs_man = 左シフト fs_man を 2 ビット； 


fs_man = 左シフト fs man を 2 ビット； 

r = 左シフト r を 2 ビット； 


r = 左シフト r を 2 ビット； 

b = 左シフト b を 1 ビット； 


b = 左シフト b を 1 ビット； 

q = 左シフト q を 1 ビット； 


q = 左シフト q を 1 ビット； 

endrep 


enarep 

if(r i=- 0) then /* Sticky がある */ 


if(r 关 0) then /* Sticky がある */ 

q = q or 1 ； 


q = q or 1 ； 

endif 


endif 


( b ) 開平計算のアルゴリズム(倍精度） （ c ) 開平計算のアルゴリズム(単精度) 


d . ddddaadd .... 

であるとすれば，結果は， 
d.dddd x l 0 (c/2) 

となる.平方根も除算と同様に繰り返し計算で求める 
ことができ，繰り返し回数を多くするほど多くの精度 
を得られる.このときの剰余に相当する値が Sticky 
の元になる. 

平方根は，仮数部を開平計算(正規化できるまで繰 
り返す）して，結果を丸めればよい.結果の符号は0 
でなければならない.結果の指数は， ソースオペラン 
ドの指数 (バイアス なし）を1/2したものである. アン 
パックとリパックを除く手順をリスト4に示す.特殊 


リスト5 32ビット整数から単精度浮動小数点への変換 


if(fs < 0) then /* 絶対値*/ 
fd_sgn =1; 
fd 一 man = -fs? 

else 

fd_sgn = 0; 
fd 一 man = fs ； 
endif 

fd_man = {0...0, fd_man} /* 32 ビット長を仮定 */ 
clz = fd_man を MSB (bit31 } から 

下位に連続する 0 の数を計数； 

/* 1 の位置を検出 */ 
if(clz == 32} then /* IZD */ 
rd_exp = 0 ； 
fd 一 man = 0 ； 
else if(clz < 5) then 

fd_exp = 0x7f + (31-clz )； 

fd_man = Sticky 付き右シフト fd_man を 

(5-clz) ビット； 

else /* clz ^ 5 */ 

fd 一 exp = 0x7f + (31-clz )； 
fd_man = 左シフト fd_man を （ clz-5> ビット； 
endif 


データ 型の処理 や，オーバフロー，アンダフローの 検 
出処理は省略してある.また，2進数での開平計算の 
アルゴリズムの 一例を別途示す. 

平方根は Newton 法などで求める場合もあるが，開 
平計算による場合が一番高速である. 

また開平計算のアルゴリズムは，除算と同様，倍精 
度と単精度で共通化できるがあえて二つに分けてある 
(リスト 4( b )，（ c )). 

丸め処理はこれも加算と同様である. 

• 32 ビット整数から単精度浮動小数点への変換 
32ビット整数を単精度浮動小数点に変換する場合 
は，整数(絶対値）の最上位の1があるビットを，ビッ 
卜26になるように左または右にシフトすればよい（リ 
スト 5). この位置は， Guard , Round , Sticky を含め 
た正規化数になる位置である.また，変換前の32ビ 
ット整数を A とする. 

• 倍精度浮動小数点から単精度浮動小数点への変換 

倍精度浮動小数点から単精度浮動小数点への変換は 
簡単である.右シフトをして正規化位置までもってく 
ればいい（リスト 6). 指数の値(バイアスなし）の値は 
変わらない.ゼロの場合は処理を分ける必要がある 
が'，ここでは言及しない. 

リスト6倍精度浮動小数点から単精度浮動小数点への変換 

rd—sgn 二 fs—sgn; 

fd—exp = fs 一 exp - 0x3 ff + 0x7 f; 

/* バイアス値今変えるだけ ★/ 
fd_man = Sticky 付き右シフト fs_man を 29 ビット； 
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リスト 7 32ビット整数から倍精度浮動小数点への変換 


if(fs < 0) then /* 絶対値 */ 
fd_sgn =1; 
fa 一 man = -ts ； 

else 

fd_sgn = 0 ； 
fd_man = fs ； 
endif 

fd_man = {0...0, fd 一 man} /* 32 ビット長を仮定 */ 
clz = fd_man を MSB (bit31 } から 

下位に連続する 0 の数を計数 ; 

/* 1 の位置を検出 */ 
if (clz == 32) then /* IZD */ 
fd_exp = 0; 
fd_man = 0; 

else 

fd_exp = 0x3ff + (31-clz); 

fd_man = 左シフト fd_man を （ clz+24) ビット； 
endif 


リスト 8 単精度浮動小数点から倍精度浮動小数点への変換 


rd 一 sgn = rs_sgn; 

rd—exp = fs 一 exp 一 0x7f + 0x3ff; 

/* バイアス値を変えるだけ */ 
fd_man = 左シフト fs_man を 29 ビット； 


• 32ビット整数から倍精度浮動小数点への変換 

32ビット整数を倍精度浮動小数点に変換する場合 
は，整数(絶対値）の最上位の1があるビットをビット 
55になるように左シフトすればよい （リスト 7). この 
位置は， Guard , Round , Sticky を含めた正規化数に 
なる位置である.また，変換前の32ビット整数を/ 5 
とする. 

•単精度浮動小数点から倍精度浮動小数点への変換 

単精度浮動小数点から倍精度浮動小数点への変換は 
簡単である.左シフトをして正規化位置までもってく 
ればいい（リス ト 8). 指数の値（バイアスなし）の値は 
変わらない•ゼロの場合は処理を分ける必要があるが， 
ここでは言及しない. 

• 単精度浮動小数点から32ビット整数への変換 

単精度浮動小数点を32ビット整数に変換するには， 
指数の値(バイアスなし）が0になるように，仮数を左 
または右シフトすればよい（リスト 9). 

次に丸め処理であるが，浮動小数点から整数への変 
換は通常切り捨て ( RZ ) で行われる.これは Truncate 
(切り捨て）変換と同じである.この他にも，整数の 
変換方式には，丸めモードによって Ceiling ( RP )， 
Flooring ( RM ), Rounding ( RN ) という処理がある. 

最後に，結果に符号を付ける処理は，丸められた整 
数は正の数なので， fs _ sgn にしたがって，符号を付け 
直す.つまり， fs _ sgn が1ならば，符号反転 (0 から引 


リスト9単精度浮動小数点から32ビット整数への変換 

(シフト処理） 


cnt = fs_exp - 0x7r - 23; 
if(cnt < 0) then 

fd_man = Sticky 付き右シフト fs_man を -cnt ビット； 
else if(cnt < 8) then 

fd_man = 左シフト fs_man を cnt ビット； 
else if((cnt==8)&&fs_sgn) then 

fd_man = 左シフト fs_man を cnt ビット； 
endif 
else 

/* 才ーバフロー */ 
endif 


リスト 10 倍精度浮動小数点から 32 ビット整数への変換 

(シフト処理） 


cnt = fs_exp - Oxjrf - 52; 
if(cnt < -21) then 

fd_man = Sticky 付き右シフト fs_man を -cnt ピット； 
else if((cnt== -21)&&fs_sgn) then 

fd_man = Sticky 付き右シフト fs_man を -cnt ピット； 
endif 
else 

/* 才ーパフ □ 一 */ 
endif 


き算)する. 

• 倍精度浮動小数点から32ビット整数への変換 

倍精度浮動小数点を32ビット整数に変換するには， 
指数の値（バイアスなし）が0になるように，仮数を右 
シフトすればよい（リスト 10). 

次に丸め処理であるが，浮動小数点から整数への変 
換は通常切り捨てで行われる.これは Truncate (切り 
捨て）変換と同じである.この他にも，整数の変換方式 
には，丸めモードによって Ceiling , Flooring , Rounding 
という処理がある. 

最後に，結果に符号を付ける処理は，丸められた整 
数は正の数なので， fs _ sgn にしたがって，符号を付け 
直す.つまり， fs _ sgn が1ならば，符号反転 (0 から引 
き算)する. 

•比較 

浮動小数点の比較とは， 「<( less )」， 「= ( equal )」， 
「比較不能 （ unordered )」 という情報を確定すること 
である.結果の表現方式は，プロセッサのアーキテク 
チヤによってまちまちである. 

普通に考えれば，浮動小数点の減算を行って，その 
結果を調べれば いいが， 浮動小数点の比較は，符号， 
指数，仮数を独立して比較することで，簡単に行うこ 
とができる（リスト 11 ). 

• FPU のパイプライン処理 
以上述べてきた浮動小数点の演算はパイプライン処 
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リスト 11 比較処理 


if ( ソース 1 またはソース 2 の片方または両方が QNaN または SNaN) then 
less = 0 ； 
equal= 0 ； 
unordered =1 ； 

else 

unordered = 0 ； 

equal 一 1=(fs_sgn == ft_sgn )； 

equal 一 2 = (fs_exp == ft_exp) and (fs_man == ft_man )； 
tmp = {fs_sgn, fs_exp, fs_man} - {ft_sgn, ft_exp, ft_man }； 
/* 単にソース 1 からソース 2 を（整数として）減算 */ 
less 一 1= (fs_sgn==l)and(ft_sgn==0 )； 
less 一 2 = ((fs_sgn==l)and(ft_sgn==l)and(tmp^ 0)) or 
((fs_sgn==l)and(ft_sgn==0)and(tmp<0 ))； 
less =(less_l or less 一 2} and (not equal )； 
equal= ( ソース 1 またはソース 2 の 片方または商 方が if 口）？ equal_2 : 
(equal_l and equal_2 ) ； 

/★ -0 と +0 は等しいことに注意 ★/ 

endif 


理により操作をオーバーラップさせることができる. 
たとえば ， MIPS R 4000の FPU パイプラインは次のよ 
うなステージから構成される. 

U …アンパック 
S …シフト 
A …仮数部の加算 
EX … 実行ステージ 
M …乗算の第1ステップ 


N …乗算の第2ステップ 
D …除算 
E …例外のテスト 
R …丸め 

それぞれの命令のパイブライン構成を図6に示す. 
また，パイブライン処理による演算のオーバーラップ 
実行の例を図7に示す. 

浮動小数点演算は，大まかにアンパック，演算，丸 


開平計算 


平方根を求める方法は開平計算として知られている. 

開平法ともいう.図 A を参照して，1234.56789 (10 進数） 

の平方根を求める方法を示す. 

(1) まず，小数点を境に2桁ずつに区切る. 

(2) 最初の12に関して同じ数を掛け合わせて，それを 
越えない一番近い数を求めると3になる.これが平 
方根の最上位の値である.また，12から 3 x 3 を引 
くと3が残る. 

⑶差の3に次の2桁である34から1桁追加して33を作 
る.これを，先の掛け合わせた数の3の和（==6)で 
割り，5を得る.これが平方根の次の位の値である. 

(4) 33にさらに1桁追加して334を作る.これから3 + 
3 = 6に5を追加した65に5を掛けた325を引くと9 
が残る. 

⑸差の9に次の2桁である56から1桁追加して95を作 
る.これを先の掛け合わせた数の和である70(= 
65 + 5) で割り，1を得る.これが平方根の次の位の 
値である. 

⑹95にさらに1桁追加して956を作る.これらか65 + 
5 = 70に1を追加した701と1を掛けた701を引くと 
255が残る • 


J 


60 

+ 5 


33+6 


- J 3. X 3 J 2 34.56 78 90 

3 


70111 


95+70 


；65±5：-： y ^ 


+ 


701 X 1 


7020 


2557+702 


9 56 
701 


+ - mxX- 210 69 

7026囵 ------------ スー 45 09 90 


6 


70266 X 6 


70272141 - 
卜 4 


293940+70272 

702724 X 4 


421596 
- 2 93 94 00 


/1 234.56789=35. 1364- 


① 小数点を境に2桁ずつに分ける 

② 掛け合わせた値を引く 

③ 差に1桁追加して，足し合わせた値で割る 

④ もう1桁追加して，掛け合わせた値を引く 


図 A 開平計算 （10 進数）の例 


(7) 以下，同様に繰り返す.言葉だけではわかりにくい 
ので図を見てほしい. 

以上の開平計算を2進数で行えば，状況はもっと単純 
である.そこに登場する数値は0か1しかない. 
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図 6 R 4000の浮動小数 
点演算のパイプライン 


加減算 
比較 

整数…単精度変換 
整数一倍精度変換 
単一倍精度変換 
倍一単精度変換 
整数への変換 
乗算（単精度） 
乗算（倍精度） 
除算（倍精度） 
平方根 



図7 

パイプラインの処理例 
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め&リパックに分類できる.それらは，通常，ハード 
ウェア資源を共有しないので，スルーブット1クロッ 
クで浮動小数点の演算を開始できる.演算の時間は加 
減算で1クロック，乗算で2クロック，除算で数10ク 
ロックが普通である.もし，すべての演算時間が1ク 
ロックになれば，浮動小数点演算も整数演算と同様に 
パイプライン的に1クロック実行になる.これが理想 
だが，現実はそこまでいっていない. 

なお，浮動小数点演算，とくに3次元グラフィック 
においては，除算の性能はシステム性能に依存する. 
たとえばグラフィックに特化した PlayStaion 2 の 
EmotionEngine は専用の除算器を用意して，除算を 
数クロックで行う（これができるのも単精度演算のみ 
に割りきったことが一因ではあるが）. PlayStation 2 
の発表当時，除算器の採用は実に画期的であった. 


まとめ 

FPU の概要について述べてきた.浮動小数点演算 
のアルゴリズムを示したが，それらはすべて整数命令 
で実現可能である.しかし，その処理を専用ハードウ 
エアによって，10倍から50倍の性能を実現できる. 
パイプライン処理を行うことで実質的な実行時間を短 
縮することもできる.現在，浮動小数点の演算の処理 
時間は，整数演算の処理時間とますます変わらなくな 
ってきている.この進歩が， 3 D グラフィックの応用 
分野を飛躍的に広げたのは疑いようがない•また， 
MPU の開発においても整数性能は飽和してきている 
が，浮動小数点性能は確実に向上している.その基本 
となる FPU の原理を知っておくことは必須の教養で 
あろう. 
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図 A 1 ビット加算器 

パ31石31 ^30 S30 



11 


! I 


FA 


FA 


<^32^ - 

C31 


図 B 32 ビット RCA 

1 


1 


(Ripple Carry Adder) ^31 030 



演算回路をいかに高速に処理するか 

高通演算器の実際 


高速な整数演算や浮動小数点演算を行うためには， 
高速な演算器が必要である.ここでは，高速演算器の 
実際について説明する. CPU や FPU を設計する場合 
(は，あまりないと思うが)の参考になれば幸いである. 

• 加算器の実際 

加算器においては，まず1ビットの加算を考える. 
2進数では， 

0 + 0 = 0桁上がり0 
0 + 1 = 1桁上がり0 
1 + 0 = 1桁上がり0 
1 + 1 = 0桁上がり1 
を実現できればいいので 
S = AxorB (和） 

C = A and B (桁上がり） 


で示すことができる.これが半加算器 (Half Adder) の 
論理である.しかし，半加算器は下位からの桁上がり 
(キヤリ）を足し込めないので現実的でない.実際には 
図 A (a) に示す真理値表を実現する論理が必要である. 
それが全加算器 (Full Adder) で,.図 A(b) または図 A 
(c) で示される.1ビットの全加算器があれば，それを 
直列に組み合わせて任意のビット数の加算器を構成す 
ることができる.図 B の加算器はキヤリが1ビットず 
つ，さざ波のように伝播していくので，リプル（さざ 
波）キヤリ加算器 (Ripple Carry Adder) と呼ばれる. 

リプルキヤリ加算器の欠点は，下位のキヤリが決定 
しないと，そのビットの和が求まらない点である.図 
A(b) から 1 ビットのキヤリを生成するためには 2 段の 
ゲートを通らなければならない.一つのゲート遅延を 
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図 c 

CLA (Carry Look 
Ahead ) 回路 


Pz G3 P2 G2 P \ G \ Po Go 



3 とすれば，"ビットのリプルキヤリ加算器の計算時 
間は^となる.図 A ( c ) では 1 ビットの和を計算す 
るのに4段のゲートを通過しているように見えるが， 
現実には図 A(b) のように3段（キヤリの反転に1段 
必要）で構成可能である.これを見ると和の計算のほ 
うが律速段階に思えるが，キヤリが伝播するうちに 
和は計算できるので，和を3段で計算する場合には 
(2 M + 1) で;2ビットの計算が柊わる.+1は誤差とも 
みなせるので，実際にはキヤリの伝播のほうが計算速 
度を支配している. 

加算を高速化するためにはキヤリの生成を高速化し 
なければならない.実はキヤリは入力の値から予測 
(というか先読み）することができる.それを行うのが 
キヤリ先見 （Carry Look-ahead : CLA ) 回路である. 
それを図 C に示す.なお，図 C では， 

Gj = Aj xor Bj 
Pi = Aj and Bj 

である.この G / と尸/を使用すれば，その加算でのキ 
ヤリ Q は， 

C/ = G/ or Pi and C/ - i(=G/ + P/C/ - i) 

で示すことができる.この式より， G / はビット/での 
キヤリの生成 （ Generate ) を示し，はビット/での下 
位ビットからのキヤリの伝播 （ Propagate ) を示す意味 
があることが分かる.ついでにいえば，ん•と5,•の和み 
は/ 5 /と下位からのキヤリ C /-! を用いて， 

Si = Pi xor C / - i 
と表せる.本来，図 C の回路は， 

C/ = G/ + P/C/ -1 

= G/ + PjiGi - 1 + Pi -I C[ - 2 ) 


==+ P / G / -1 + 尸/尸/ -上 G / - 2十… 


+ PiPi - 1 …… PiGo + PiPi - j …… PqC-x 
で/- = 4の場合をゲートで表したものである. Gi やり 
を生成するのにゲート1段，キヤリの先見に2段(図 C )， 
和に3段で64の時間で計算可能である.この時間は 
加算するビット数にかかわらず一定である•この結果， 
CLA を使用すれば， 

(2/7^1)/(6 zi ) = n /3 

倍の高速化が実現できる.一般には (/? が大きレゝ場合)， 

/7/l0g(/!) 

倍程度の高速化になっているという. 

CLA は万能のように思えるが，ビット数が増える 
とゲートの入力数 ( fan - in ) やゲートからの出力数 ( fan ¬ 
out ) が大き くなり過ぎて実現不可能になる.現実とし 
ては4ビットまたは8ビットの単位に切り分けて計算 
する.この方式をブロックキヤリ先見 (Block Carry 
Look Ahead : BCLA ) という.図 D が 4 ビットのブロ 
ックキヤリ先見回路で，ここでは C 3 を計算する代わ 
りに，新しい G * と 〆 を生成している.ここで， 

P* = P3P2P1P0 

G* - G3 + P：]G2 +P3P2G1 + P3P2P1G0 
となっており，ぴと尸*の意味から， 

C 3 = G * + P * C-i 

という関係が成り立つ.つまり4ビットの BCLA を1 
ビットの生成 （ G *)， 伝播 （ P *), 下位からのキヤリ 
( C - i ) とみなせる.これに注目し，四つの4ビット 
BCLA と一つの4ビット CLA を使用して16ビットの 
加算器を構成できる（図 E ). 

実際に MPU などの設計に用いられる加算器は図 E 
と同じような構成をしている.ただし，32ビットの 
加算器は八つの4ビット BCLA と一つの8ビット 
CLA ， 64ビットの加算器は八つの8ビット BCLA と 
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Appendix 6 高速演算器の実際 


図 D 

4 ビット BCLA(Block 
Carry Look Ahead) 

回路 


^3 Pi G2 P\ 6 ] Pq Gq 




Si 

図 E BCLA と CLA を組み合わせた加算器 


一つの 8 ビット CLA で構成される. CLA は BCLA で 
代用される場合もある. 

なお，ここで紹介した加算機はキヤリを伝播して計 
算する方式を採るので一般的にキヤリ伝播加算機 
(Carry Propagation Adder : CPA ) と呼ばれる.加 
算機の構造に言及したい場合は，同じ CPA でも RCA 
(Ripple Carry Adder ) とか CLA とか BCLA と呼んで 
区別する. 

• 減算器の実際 

減算器は加算器の第2入力を負の数に変換して入力 
することで実現する.つまり，第2入力の2の補数を 
取って加算する. 2の補数はビットを反転して1を加 
算することで実現できるので，この1を最下位からの 


キヤリ入力にしてやれば，第2入力は反転するだけで 
よい.これは1と排他的論理和を取ることで計算でき 
る.結局，加減算器の構成は 図 F のようになる. 

• 多入力の加算器 

キヤリの伝播が加算時間の律速段階になることはす 
でに述べた.それならば逆の発想で，キヤリを伝播さ 
せずに加算を行うことが考えられる.これは特に3入 
力の加算で多用される.全加算器 ( FA ) において，キ 
ヤリ入力を第3の入力に見立てればよい.この三つの 
入力を加算しておいて，キヤリの集まりと和（サム）の 
集まりを別個に計算しておく.これをキヤリ保存加算 
器 (Carry Save Adder : CSA ) と呼ぶ.つまり，まず 
CSA でキヤリ部とサム部を計算しておき，最後にそ 
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図 F 減算器の構成 


An Ap-\ ••• Az A 1 Ao Bn Bn-] … 巳 2 巳、巳 Q 



r _/0 :加算 
しわ _ 11 :減算 


図 G 

キャリ保存加算器 


R^X\ K+Z 



R n Rn-\ Rn-2 Rz R\ Rq 


れらを CPA で足し込む（図 G ). このとき，キヤリ部 
は1ビット左シフトされた格好になり，最下位は0と 
なる. 

もし，三つの入力のどれかを反転 （1 と排他的論理 
和）してキヤリ部の最下位に1を入れておくと減算を 
行うことになる. 

CSA が一つだけではありがたみも少ないが，図 H 
のように CSA を木構造に結合すると高速な多入力の 
加算器を構成できる.多入力の加算を行う場合は3入 
力単位に分けて CSA に入力する方法が好まれる.図 
H も右側から3入力をなるべく組み合わせた構成にな 

つている. 

この木構造を Wallace ツリーと呼ぶ. CSA の組み合 
わせ論理を VLSI 上に集積する場合は，配線の規則性 
が問題となる. Wallace ツリーはその要求に応える構 
造になっている. Wallace ツリーは乗算器において部 
分積を足し合わせる場合には特に多用される. 

• 乗算器の実際 

乗算の原理は掛けられる数（被乗数）を掛ける数(乗 


数）の数だけ加算することである.単純には乗数の数 
だけ被乗数を CSA で加算してやればいいが，これで 
は効率が悪い.そこで，乗数をビット列に分解するこ 
とを考える. 
xx r 

を計算する場合， 

r = ん-心パ…れれれ(巧は0か 1) 

とすると， 

Y= (y /z -!«(/!-!)) + (作 一 2 くく (n- 2)) 

+ …… + (y 2 «2) + (Yi«l) + Y 0 
と《個の和に分解できる（くくは左シフトを表す）.こ 
のとき積も， 

X* K=(X • K n -i«(/i-i)) + (X* Y n -2«(n- 2 )) 

+ …… +(x- y 2 « 2 ) + (x - yi«D+x - Y 0 

と/ 7 個の和になる.これを CSA で加算する.たとえ 
は， /z = 6 の場合， 

N\ = X • Y 5 «5 
N 2 = X • Y 4 «4 
N 3 = X • Y 3 «3 
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Appendix 6 高速演算器の実際 


N 、 N2 A/3 N/\ 

鬥 


CSA 


可 


1 ビッ I 
シフト 


V V 


CSA 


(a) 4 入力 CSA 


5 : サム部 
キヤリ部 


q 9 
(b) 5 入力 CSA 



r c 
(c) 6 入力 CSA 


図 H 多入力 CSA の構成例 


N A = X . V 2 «2 
N 5 = X • Ki«l 
N 6 = X • Y 0 

として，図 H(c) の 6 入力 CSA に入力してキヤリ部と 
サム部を得て，それらを CPA で加算すれば積が求まる. 

今は乗数にかんして1ビットずつ処理を行ったが， 
これは1ビットずつ部分積を計算して足し合わせた. 
これを2ビットずつ処理すれば，部分積の加算回数が 
半分になる. F を2ビットずつ処理するとき，その組 
み合わせには次の4種類があり，その値に応じて0, X 
2 X ，3 X ( = X + 2 X ) を選択して CSA で加算していけば 

いい. 

IK / + 1, が= 〇〇…〇を加える 
01 … x を加える 

10… 2X(A： の1ビット左シフト）を加 
える 

11…Xと 2A： を同時に加える 
この方式の乗算器 U = 8 の場合）を図 1(a) に示す. 
この方式の欠点は，図 1(b) に示すように， 3X を作る 
ために余分な加算が必要なことである.被乗数を加え 
る際にシフトするだけで目的の部分積が得られること 
がゲート数を削減するためにも望ましい.これを満た 
す方法として Booth のアルゴリズムがある. 

Booth のアルゴリズムは，処理単位のビットの他に 
さらに下位の1ビットを見て足し込む部分積を決定す 
る.具体的には乗数のビットを3ビットずつ見ていく 


が，ビットを走査する開始位置を2ビットずつずらし 
ていく.このとき部分積は， 

|y/ + i, Y h K-ihooo …〇を加える 
001… +X を加える 
010… +X を加える 
011… +2X を加える 
100…一 2X を加える 
101… —X を加える 
110… —X を加える 
111…〇を加える 

となる.これなら被乗数のシフトと符号反転(減算）だ 
けで実現できる.ただし， F -丨は0である. 

具体例を示そう .X = 0x34, : K = 0x56 として AT = 
0x1178 を手計算してみる.いま8ビット X8 ビットの 
乘算を規定しているので，結果は16ビットとなる. 
まず図 J(a) のように +X と +2X を計算する. 2倍する 
場合は1ビット左シフトするだけである. 

次に， - Xと- 2A： を計算する.これは2の補数なの 
で0と1を反転して1を加えればいい（図 J(b)). 

次に y のビットを走査する. 3ビットずつ見ていく 
が，ビットを走査する開始位置を2ビットずつずらし 
ていく.この例では最後にビットが足りなくなるので 
最下位に0を追加すると， 

-2 X +2 X + X + X 

を加算すればよいことになる（図 J(c)). 以上を図 J(d) 
のように足し合わせると 0x1178 という結果が得られ 
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( a ) ( b ) 

図丨 2 ビット単位に処理する乗算器の例 


+ X =0000 0000 00110100 
+2 X =0000 0000 0110 1000 — 1ビット左シフト 

( a ) + X と +2 X の計算 


1111111110011000 
0000 0000 01101000 « 2ビット左シフト 
0000 0000 00110100 « 4ビット左シフト 
+) 0000 0000 00110100 <<6ビット左シフト 


を計算すると… 


一 X = 1111 111111001011 + 1 
=1111111111001100 
-2 X = 1111 111110010111 + 1 
=1111111110011000 

2の補数なので0と1を反転して1を加える 
( b ) 一 X と 一 2 X の計算 


1111111110011000 
0000 00011010 00 
0000 00110100 
十）0000110100 



0000 000100111000 
0000 00110100 
+) 0000110100 


上二つを加算 


Y =0101 0110 0八 ゼロを加凡司 

10©- -2 X &0 ビット左シフト 
011 … +2 X &2 ビツト左シフト 

010 •••十 X & 4ビツト左シフト 

010 … +X & 6ビット左シフト 


0000 0100 01111000 — J 上二つを加算 
0000110100 

0001000101111000 
1 

Ox 1 1 78 


(C) ビットの走査 


( d ) 加算処理 


図 J X = 0 x 34, Y = 0 x 56 として XY = 0 x 1178 


る.これをもとにして，8ビットの乗算器を CSA を用 
いて構成すると図 K のようになる.一番右上の， 

〇 + 〇 +拙， r 0 , r-ii 

を計算する CSA は冗長である. 0を加算しても同じ値 
になるからだ.しかし対称性がいいのでそのままにし 
ておく. 

乗算器の基本は以上のようなものである.乗算器は， 


一言でいえば，並行に計算可能な部分積を足し合わせ 
るだけであるが ， CSA のつな ぎ方に種々の バリエ ー 
シヨンがある.そして，それが乗算器を特徴づけてい 
るのだが，ここではこれ以上言及しない.回路に落と 
す場合には正方形になるような配置が好まれる.なお， 
実際の乗算器ではシフト処理は配線の付け替えで行う 
ので，一般にいうシフタは不用である. 
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Appendix 6 高速演算器の実際 


図 K Booth アルゴリ 
ズムを利用した 8 X 8 
ビット乗算器 



乗算器はシステムの性能を決定づけるため，回路構 
成や配置法がいろいろ研究されている.そのケースと 
して54ビツト x 54ビットの無符号乗算器の研究が多 
い. これは浮動小数点の乗算を高速に計算する需要が 
もっとも多いからである（精度は Gurard と Sticky の2 
ビツトを想定している）. 

• 除算器の実際 

除算器は，乗算器とは異なり被除数から除数の減算 
で構成される.しかし，部分商といったものを並列に 
計算することはできず，必ず一つ前の結果に依存して 
次の処理を決定しなければならない.事実，除算器と 
いうものは存在するが，これが決定版というものはな 
い.それだけ多くの研究があるのも事実であるが，こ 
こでは簡単な除算器の例（引き戻し法と引き放し法を 
それぞれ一つ）を述べるに留める. 

なお，ここで紹介する除算器では，被除数，除数と 
もに正の数であることと仮定している.本来，浮動小 
数点の仮数部は符号と小数部の絶対値からなるので， 
これで十分である. 

除算においては，被除数から除数が弓1ける（ボロウ 
が出ない)場合に1が立ち，逆の場合に0が立つ.この 
ときの差が部分剰余として新たな被除数になる•引き 
戻し法とは，引けない（ボロウが出る）場合には部分 


リスト A 引き戻し法のアルゴリズムによる減算処理 


q = 0;/* 商 */ 
r = 0;/* 剰余 */ 
b = 0;/* ボ □ ウ ★/ 
repeat 繰り返し回数 then 
if(b==0)then 

r = fs_man 一 ft—man; 
b = 減貪のボロウ; 

else 

r = fs_man + f t_man ； 
b = 加算の キヤ リの 反転 , • 
endif 

q = q or NOT(b); 
fs_man = r ; 

fs_man = 左シフト fs_man を 1 ビツト； 
q = 左シフト q を 1 ビツト； 

endrep 

if(b!=0)then 

r = r 十 ft_man ； 
endif 


剰余に除数を加えて元の値に戻す方法である•本 
Appendix で除算のアルゴリズムとして上述してある 
のが引き戻し法である.一方，引ける/引けないに無 
関係に必ず差を部分剰余とするのが引き放し法であ 
る.引き放し法で商として1が立つ（引ける）場合は， 
次の回は加算を行い，商として0が立つ（引けない)場 
合は次の回に減算を行う.引き戻し法のアルゴリズム 
に倣って手順を示すとリスト A のようになる. 

さて，引き戻し法による除算器では図 L ( a ) のよう 
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なセルを用意し，図 L ( b ) のように構成する.図 L ( a ) 
は制御減算器 (Controlled Subtractor : CS ) と呼ばれ， 
二つの数の減算によるボロウ（尸）と部分剰余⑸を組 
み合わせ回路で生成する.このとき制御抑止信号 ( D ) 
によって，5：の値は， 

U (D =1) 

U - 5 (D = 0) 

となる.つまり， Z 5 を D に直結することで正しい部分 
剰余が得られる. 

また，引き放し法による除算器では図 M ( a ) のよう 


なセルを用意し，図 M ( b ) のように構成する.図 M ( a ) 
は制御加減算器 (Controlled Adder or Subtractor : 
CAS ) と呼ばれ，ボロウ （ P ) の値によつて加算または 
減算を行う.つまり， 

_\A + B (P = 0) 

\a-b (P = 1) 

である.全加算器 （ FA ) を使用するため，図 M ( b ) の 
各行でキヤリの先見を行い，次の行へのボロウ（キヤ 
リの反転）を早期に生成することも可能である. 

上述のように，乗算と同じく組み合わせ回路で除算 



( a ) 


Q \ 



广4 厂5 厂6 

(b) 


図 L 制御加算器 ( CS ) 


Q =0. q \ q 2 Q 3 
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器を構成することも可能であるが，現実の MPU に適 
用されている例は稀である.除算の出現頻度に比して 
回路規模が大きくなり過ぎるのがその理由であろう • 
多くの MPU では，除算のアルゴリズムで示した繰り 
返し計算によって除算を実現している. 

• バレルシフタの概念 

演算器の中で忘れていけないものにシフタがある. 
昔はフリップフロップで構成されたシフトレジスタを 
利用してシフタを実現していた.この場合，1クロッ 
クに1ビットしかシフトできないので，ビットシフ 
卜をするためには/1クロックの時間がかかる.これを 
シフト量にかかわらず，1クロックでシフト操作を実 
現するのがバレルシフタである.最近は，シフタと言 



5 

( a ) 


えばバレルシフタのことを指す. 

バレルシフタの構造は非常に単純であり，あえて解 
説する必要もないと思うのだが，一応概念だけ示して 
おこう. 

バレルシフタとはセレクタである…という一言では 
説明にならないので，もう少し説明しよう.簡単のた 
めに4ビットのバレルシフタを考える. 図 N に示すよ 
うに，4ビットのデータを格納するレジスタ（ここで 
は右側を SFTO ， 左側を SFT 1 と呼ぶ）を2組用意し， 
シフトするデータを次のように格納する. 

1) 右論理シフト： SFTO にシフトするデータ， SFT 1 
にオール0 

2) 右算術シフト： SFTO にシフトするデータ， SFT 1 
にシフトするデータの符号ビットをデータ長だけ 
コピーしたデータ.つまり，オール1かオール0で 
ある 

3) 左(論理/算術）シフト： SFTO にオール0, SFT 1 に 
シフトする データ 

4) ロー テート： SFT 0 と SFT 1 の両方にシフトする 
データ 

このようにシフトするデータを設定した後， SFT 1 
と SFT 0 を連続する8ビット（データ長の2倍）のレジ 
スタとみなし，右シフトなら右側（最下位ビット）のシ 
フト量の位置からデータ長 （4 ビット）だけ取り出す. 
左シフトなら左側（最上位ビット）のシフト量の位置か 
らデータ長 (4 ビット）だけを取り出す.左シフトの場 
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図 M 制御減算器 ( CAS ) 
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図 N バレルシフタ 
の概念 


A 

B 

C 
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( a ) シフトされる データ 
SFT 1 


SFTO 


S 

S 

S 

S 

A 

B 
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D 


SFT 1 


SFTO 


— 


5：論理シフトの場合0 

算術シフトの場合 A (最上位ビット） 


一1ビット•シフト 
-2 ビット•シフト 
-3 ビット*シフト 

-4 ビット•シフト 
( b ) 右シフト 
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<=>の部分を 
選択して取り出す 
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D 

0 

C 
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0 
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<=>の部分を 
選択して取 1 J 出す 


リスト B バレルシフタの記述例 ( Verilog - HDL ) 


reg [3:0] in ； // シフトされるデータ 


wire[3:0] sft; // シフトした結果 

endcase 

reg [3:0] lsft ； // 左シフトの結果 


reg [3:0] rsft ； // 右シフトの結果 

always® (in or cnt) 

reg [1:0] cnt ； // シフト量 

case (cnt) 

reg Is ； // シフト方向：左 —1, 右—〇 

2'dO ： rsft = in ； 


2*dl ： rsft = {l{in[3]}. in[2 ： 0 ]}； 

always® (an or cnt) 

2'd2 ： rsft = {2{in[3]}, in[l:0 ]}； 

case (cnt) 

2'd3 ： rsft = {3{in[3]}, in[0 ]}； 

2 1 dO：lsft = in ； 

default ： rsft = 4{in[3 ]}； 

2'dl ： lsft = {in[2 ： 0].1•dO }； 

endcase 

2*d2 ： lsft = {in[l ： 0]. 2'dO }； 


2'd3: lsft = {in[0], 3'dO}; 

assign sft =(Is)?lsft : rsft; 

default：lsft = 4_d0; 



合で，最下位ビットを基準にする場合は（データ長- 
シフト量）の位置からの選択でも同じ結果になる.こ 
れでシフトが実現できる.図 N にはローテートの場合 
を図示してないが同じことなので考えてみてほしい. 
•••ともっともらしく説明してきたが'， バレル シフタ 


は HDL ( Verilog - HDL ) で書くとリスト B のように簡単 
に記述できる.これを論理合成すればその構造など気 
にする必要はない.ただ，高速性を考慮するとなると， 
1度に選択するビット数を少なくするなど，いろいろ 
工夫が必要ではあるが…. 
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Java アプリケ_シヨンを高速に実行するための 

Java プロセッサの特徴と実際 


Java で書かれたアプリケーションが使われる身近な例としては携帯電話があるだろう.しかし実際にはそこに 
Java プロセッサが使われている例は少なく，通常はプロセッサ上で走る Java 仮想マシンか，一部の実行を高速 
に行うための Java アクセラレータが内蔵されている程度である.ここでは Java プロセッサと Java アクセラレー 
夕について解説する. 


最近， Java というコンピュータ言語が普及しつつ 
ある.書店の店頭を見ると Java 関連の書物がいかに 
多いことか. Java の利点は， Java で作成したソフト 
ウェア （ Java アブレット）が 0 S やハードウェアに依存 
せず，ほとんどすべてのコンピュータで動作すること 
である.最近では携帯電話でさえ動作する.この普遍 
性は 0 S に組み込まれた Java 仮想マシン （ JavaVM ) と 
いうソフトウェアによって実現される. C 言語なども 
ほとんどの 0 S で動作するが， Java の最大の特徴は 
(基本的に）インタプリタであるということである.ア 
ブレットを作るとすぐに動作確認ができ，修正も容易 
である. 

JavaVM は， IE やネットスケープなどの Web ブラ 
ウザでも利用できるので，インターネットを通じて共 
通な Java アブレット（ゲームなど）を実行できる. 
Java の普及にはインターネットの普及が•役買って 
いる.インターネットも今後ますます発展が予想され， 
Java もさらなる発展が期待できる. 

このように世間が Java —色になりつつある（という 
のは言い過ぎだが)状況で， Java を高速に実行する要 
求が発生した.それに対する回答の一つが Java プロ 
セッサである.つまり， JavaVM のハードウェア化で 
ある.本章では Java プロセツサの特徴について解説 
する. 


▲k Sun の Java プロセッサ 

• Java プロセッサとは何か 

Java プロセッサとは Java を高速に実行するための 
プロセッサである.おもに j ava のバイトコードの解 
釈ゃ実行処理をハードウェア化したプロセッサのこと 
を指す. Java チップともいうが， JavaChip は Sun 
Microelectronics の登録商標らしく， Java アクセラ 
レータ，または Java プロセッサという呼称が一般的 
に使用される. 

最近の Java プロセッサの多くは， Java を高速に実 
行できることを目標にしているが， Java 専用ではな 
いことに注意が必要である.実はバイトコード以外も 
実行できる. Java プロセッサ自体の発表は各社から 
数多くされているが，思ったほど性能が出ないせいな 
のか，ライセンス料の問題なのか，実用になっている 
ものがほとんどない. Java プロセッサ単体としては 
コストパフオーマンスが悪いので，汎用 CPU の一拡 
張機能として Java の高速実行支援機能を実装する傾 
向にある. 

ここでは各社の Java プロセッサの特徴と状況を順 
•に見ていこう. 

• picoJava, micro Java，Ultra Java 

1996年 2 月 2 日 ， Sun Microsystems の子会社であ 
る Sun Microelectronics (以下,単に Sun と呼ぶ）は 
Java に最適化されたマイクロプロセッサフアミリの開 
発を表明した （表 1). それが， picoJava , microjava , 
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表 1 

Sun Microelectronics の 
Java プロセッサ 


製品名 

picoj ava 

microjava 

Ultrajava 

概要 

IP コア 

Picojava に周辺機能 
を内蔵 

VIS 命令セットを備え， 
グラフィック機能を強化 

用途 

携帯電話， 

家電製品 

通信機器，ゲーム機， 
PDA 

インターネット端末， 

3 D マルチメディア機器 

出荷予定（当初） 

1996年 2 Q 

1997年 1 Q 

1997年 4 Q 

価格 

25ドル程度の 
ライセンス料 

25〜50ドル 

100ドル以上 


Uitrajava である. 

picojava は Java の処理系のコアとなる部分であり， 
microjava は picojava を含み DRAM コントロー ラな 
どを加えたマイクロプロッセッサである.主として 
ローエンドの組み込み制御分野をターゲットとし，25 
〜50ドルでの提供を目標としている. 

Ultrajava は microjava のハイエンド向けである. 
Ultrajava は picojava コアを含むか否かは明言されて 
いない.発表時点では将来的な製品というイメージし 
かなかった（のちに MAJC として再発表される）.こ 
ちらは100ドル程度の価格帯を目標としている. 

Sun によれば， Java プロセッサの性能は通常の Java 
インタプリタの約12倍 ， Pentium (66 MHz ) で JIT コン 
パイラを使用した場合と比べても3〜5倍の性能を発 
揮できるとしている. 

Sun は，その後 Java が大幅に普及するとして，2000 
年には150億ドル規模の市場になると予測していた. 
そこに Java の高速化の要求が生まれ， Java プロセッ 
サのライセンス料は相当なものになると予測していた 
に違いない. 

Sun は，基本的に， picojava の論理設計を行い，ラ 
イセンスを結んだ半導体メーカーに IP (Intelectual 
Property :知的財産.具体的には論理設計情報）とし 
て供給する.各半導体メーカーは，各社の MPU のコ 
プロセッサとして picojava を実装して販売する.そ 
の意味で， Java プロセッサとしてユーザーに供給さ 
れるのは microjava ということになる. picojava 自体 
は SoC ( System - On - Chip ) を形成するマクロという位 
置付けである. 

1997年4月，東芝は microjava の仕様を Sun と合同 
で開発していくことを真っ先に表明した.プレスリ 
リースによると， microjava の製品化は Sun によって 
1998年中頃に行われるとなっていた.東芝から Java 
プロセッサが提供されるという記述はなく，この開発 
の東芝の役割はいまひとつ不明である. 

1998年3月3日付けの EETimes では，現時点で pico 


Java が動作するチップはないと報道され， Sun の苦境 
が見てとれる.ただし， NEC , 富士通 ， LG Semicon 
ductor , Rockwell , Siemens の 5 社が picojava のライ 
センスを受けていることがわかる. NEC と LG はすぐ 
さま Java プロセッサを出荷予定と報道されたが，そ 
の形跡はない.同記事は， IBM が picojava と Power 
PC を ASIC のライブラリとして提供することを伝え 
るものだったが，こちらも消息不明である. 

IBM は，同時期 picojava とは別個に, VLIW 型の 
Java プロセッサを開発していた.これは PowerPC の 
命令セットをもち， Java のバイトコードを VLIW に 
変換して実行するものだった.しかし，これも研究所 
レベルで 終わっている. 

事実， Sun の Java プロセッサは世間から忘れ去ら 
れつつあった.これは， picojava が予定していたとお 
りの性能を引き出せないことが原因である.そこで， 
Sun は picojava を picojava - n にバージヨンアップし 
てライセンシに供与を始めた. 

2000年4月5日，富士通は picojava - II コアのチップ 
「 MB 86799」 を開発したと発表した.同チップは 
picojava - II としては世界初のチップ化で，実際に機 
器に組み込む際には， MB 86799をコアとした ASIC を 
出荷するとしている. 

富士通に遅れること約2年，2001年11月15日 ， NEC 
が自社の V 850 のコプロセッサとして picoJava - II を1 
チップに実装した 「 V 850 + J 」 の開発を完了したと発 
表した.プレスリリースでは詳細は不明だが，同チッ 
プは SONY や NEC の携帯電話の Java アプリケーシヨ 
ンを高速に実行するために開発されたといわれている. 

2000年まで Java プロセッサが登場しなかったのは， 
各半導体 メーカーは picojava をライセンスしてみた 
ものの，その使い道に苦慮していたものと思われる. 
早い話，商談がなかった.それが携帯電話という具体 
的な応用分野を得て製品化に至ったのであろう. 

# picoJava の特徴 

picojava コアの最大の特徴はスタックマシンである 
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ことだ.これは Java のバイトコードの特徴でもある 
が，スタックにデータを積み，スタック上で演算を行 
い，そしてスタックから結果を取り出すというアーキ 
テクチャを採用している（図 1). 

Java のバイトコードは228命令が定義されている 
が， picojava はその約95%をハードウェアで実行す 
る.その昔， FORTH というコンピュータ言語があっ 
た.これは，すべての演算をスタックで実行するアー 
キテクチャであり，ハードウェア化が簡単であったた 
め，マイクロプロセッサにその処理系が実装されるこ 
とが多かった. picojava も， FORTH と同じくスタッ 
クアーキテクチャを採用することで，ハードウェアに 
よる実装を容易にしているものと思われる. 

picojava は64個の32ビットレジスタをスタックと 
して内蔵する. Java の各メソッドが実行されるたび 


picojava スタックに 

メソツドの フレーム 
を保持する 



64 エントリのスタック 
キャッシュ（レジスタ） 

図1 picojava のスタックアーキテクチャ 


メソッド A は多く 
のスタックを使用 
、している 



メソッド A 
メソッド巳 



図2ドリブラシステム 
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□一カル変数 


□一カル変数 


□一カル変数 

変数1 


変数1 


変数1 

フレーム 



フレーム 


フレーム 

オペランド 

ノ 


オペランド 


オペランド 

スタック’トップ 

/ 


スタック • トッフ 



演算結果 

/ 


変数1 


灶-田チーナ >つ KM 

移動 


演算 


トップに 


( a ) 従来方法 

図3スタック演算の高速化 



( b ) picoJava での方法 


に，64個のスタックからいくつかのスタック領域が 
確保されては使用される.もちろん，同時実行するメ 
ソッドの数が増えればスタックが一杯になってしま 
う.その場合は，ドリブラと呼ばれる専用メモリに古 
いメソッドのスタック内容をコピーし，空いたところ 
を新しいメソッドに割り当てる.この入れ替え処理は， 
ドリブラシステムと呼ばれ，動的かつ自動的に処理さ 
れる（図 2). 

また，一般のスタックアーキテクチャでは，スタッ 
クトップにデータを移動し，スタックトップとその次 
とで演算を行い，スタックトップに結果を返す. 

Sun による Java コードの解析で，すべての演算の 
43%がスタック操作であり，スタックトップへのデー 
夕転送が占める割合が多いと判明していた.このため， 
データをいちいちスタックトップに転送せず，スタ ッ 
クトップに計算結果を直接格納する方式を採用した 
(図 3). これにより，スタック操作の割合が29%に減 
少するという.このような命令の並列実行をフォール 
ディングと呼ぶ. 

なお picoJava コアでは，バイトコードを，フェッ 
チ，デコード，実行，ライトバックからなる4ステー 
ジのパイプラインで処理する.またスタック（キヤッ 


シュ） への アクセスは実行ステージで行われる. デコ 
ードステージでは，スタック操作の並列性を検出し， 
最大二つのスタック操作を同時実行することで性能を 
向上させる. picoJava-II では，この命令フォールデイ 
ングが4命令に拡張された. 

さらに， picoJava ではスタックにタグビットが付随 
しており，効率的なガベージコレクションを行うこと 
ができるらしい.詳細は不明だが，一般的には，命令 
のフォールデイングと優秀なガベージコレクションが 
Java を高速に実行するうえでのキーポイントである. 

• picoJava-n コアおよび MB 86799 の特徴 
picoJava- II コアの--般的なブロック図を図4に示 

す.特徴は次の通り. 

• 32 ビッ ト プロセッサ： lMIPS/MHz の性能 

• Java のバイトコードを直接実行 
•従来の C / C ++ コードをサポート 

• 6 ステージ パイプライン 

•最大4命令の命令フォールデイング 
•命令キャッシュ： 〇〜 16 K バイト 
❿ データ キヤッ シュ： 〇〜 16 K バイト 

• FPU (オプション） 

これらにより， picoJava - n コアは汎用の CPU より 
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図4一般的な picoJava - H コアのブロック図 

も， Caffeine Mark というベンチマークにおいて MHz 
当たり約15倍の Java 性能を発揮するといわれてい 
る.図 5 に Java の各種の実行形態を示す.その中で 
も Java プロセッサは最大の性能を発揮できる. 

MB 86799は， picojava- IIコアを採用した富士通の 
Java プロセッサである.図6に MB 86799のブロック 
図を示す. MB 86799は，命令キャッシュ 8K バイト， 
データ バス 8K バイトの picojava- II コア を採用し， 
PCI 2.1 に準拠した PCI インターフェース， SDRAM/ 
SRAM/Flash R0M/R0M 用の外部 バスイ ンターフ 
エース，電力制御ユニットを内蔵する. 0.25 CMOS 


拡張パス 

インターフェース 


PCI パス 

インター フエー ス 


巳 SU (パススイッチユニット） 


picoJava - 1 コア FPU 


/命令キャッシュ 8 K パイト、 
V データキャッシュ 8 K パイトノ 


コ J トロ-ル PMU PLL 


図6 MB 86799のブロック図 


プロセスで製造され， 66MHz 動作時に 360mW@2.5V， 
40MHz で 90mW@1.7V という低消費電力を実現する. 
パッケージは256ピン QFP である. 

富士通は， MB 86799の拡販のために， J-REALOS/ 
PJ という ITRON ベースのソフトウェアパッケージ 
と， J-StarterKit という評価ボードを用意している. 
確認するため富士通の Web サイトをチヱックしたと 
ころ，「本デバイス （MB86799) は評価用です.量産は 
いたしませんのでご注意ください」とある.その代わ 
り，周辺機能を簡略化した MB92901 というチップが 
併せて紹介されていた（図 7). 同 Web では Java プロ 
セッサのロードマップも紹介されており，それによる 
と富士通の Java プロセッサは，2002年には本格的な 


図5 Java の実行方式のいろいろ 
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図 7 MB 92901 のブロック図 



実用化の予定だったらしいが…. 

• MAJC 

1999年8月17日， Sun は Hot Chips XI シンポジウ 
ムにおいて，統合型マイクロプロセッサの基盤となる 
?凡用アーキテクチャである MAJC (Microprocessor 
Architecture for Java Computing :マジックと発音 
する）の技術詳細を明らかにした. MAJC は，マルチ 
メディア処理ニーズの増大， Java の普及，ネット 
ワーク帯域幅の拡大という三つの業界トレンドを受け 
て登場した.名前からすると Java を動作させるため 
の専用プロセッサ技術ということだが， Sun にとって 
はそれ以上に「ポスト PC 」 時代を実現するための 
キー テクノロジの 一つと して重要な意味をもつ. 

MAJC は， Java プロセッサの最上位製品である 
Ultrajava が名前を変えたものである.ひとことで言 
えば，マルチスレッディングを前提とした128ビット 
長の4ウェイ VLIW である.その中心となるテクノロ 
ジは次の三つである. 

U ) Data Type Agnosticism 

(2) マルチス レッ デイング 

(3) マルチプロセッサシステムオンチップ （ MPSOC ) 
Data Type Agnosticism とは，データの型ごとに処 

理をするのではなく，あらゆる形式が混在している 
データを扱えるようにする技術である.マルチメディ 
アにおいては必須の技術になると予想される.なお， 
Sun は，音声やビデオなどデイジタル化されたアナ n 
グ信号をナチュラルデータ型と呼んでいる. 


マルチスレッデイングとは，プロセッサ内部で複数 
のスレッドを並列実行する技術である. MAJC が採 
用するのは垂直型マルチスレッデイング （Vertical 
Multi Threading ) であり，これはあるスレッドがキヤ 
ッシユミスなどで長時間待たされることが明らかな場 
合に，別のスレッドに実行制御を渡す方法である. 
これは，常に複数のスレッドを混合して実行する同 
時型マルチスレッデイング （Simultaneous Multi 
Threading ) と対極をなす.ハードウエア構造は垂直 
型のほうが簡単であるが，命令の実行効率は同時型が 
勝っている. Pentium 4 で採用されているハイパース 
レッデイングは同時型マルチスレツデイングのインテ 
ル用語である. 

MPSOC ( Multiprocessor - On - a - Chip ) とは，複数の 
プロセッサを1チップに搭載するための技術である. 
具体的には，マルチプロセッサにおけるキヤッシユコ 
ヒーレンシの維持を高速に実行する仕組みを有して 
いる. 

MAJC は他にも，ギガビットクラスの高い1/〇性能 
やディジタル信号処理機能をはじめ，数々の画期的な 
技術を採用している. 

Hot Chips XI シンポジウムにおいては，「どこが 
Java 向けなのか？」という質問が出たらしい.実際， 
MAJC にはバイトコードの直接実行という機能はな 
い.しかし，単純でデータ形式を間わないこのアーキ 
テクチヤは， Java のもつプロセッサ非依存性とマル 
チスレツド機能を完全にサボートすることができる. 
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スワップ可能メモリ 
■コント□—ラ 

- DMA コント□—ラ 
- ADS じ/ロック 
- I / O バッファ 

- L 2 キャッシュ 

- PCI コント□—ラ 
- UPA / US 巳コント□—ラ 
ほかの IP プロック 
(プリプロセッサなど） 


表 2 MAJC 5200 の仕様 


MAJC チップ 


内蔵クロスパが各種 IP モジュールを集積する 
特徴 • IP モジュール内蔵 

• クロスパスイッチ速度=プロセッサ速度 
• レイテンシとバンド幅の優れた改善 
• 低消費電力 


• 2 個の独立 CPU 

• 動作周波数： 500 MHz 

•動作電圧： 1.8 V (コア）， 3.3 V ( I /0) 

•共有，2ポートのデータキャッシュ 16 K バイト 

• 800 MHz , 16ビット ， Direct Rambus DRAM インターフェース 

• 66 MHz , 32ビット， PCI インターフェース 

• 64ビット， 250 MHz , NUPA (North Unified Port Architecture ) 

• 64 ビット， 250 MHz , SUP A (South Unified Port Architecture ) 

參テクノロジ、： 0.225 "m CMOS 

• 画像プリプロセッサ：リアルタイムジオメトリ圧縮，データパス 
•パッケージ： 624端子 CGA (Column Grid Array ) 

•オンチップのデータ 転送 ェンジン （中央 クロスバースイッチ） 

•バンド幅： 2.0 G バイト/ sec ( NUPA，SUPA とも）， 1.6 G バイト / sec ( DRDRAM ) 
•性能 (500 MHz 時）： 6.16 GFLOPS , 12.33 GOPS 
•画像アクセラレータ 
• オーディオプロセッサ 

• メディアストリーム（オーデイオ，ビデオ，スピーチ）のリアルタイム処理 


図8 MAJC のフロック図 


そして，1999年10月5日には， MAJC の最初の実 
装である 「MAJC 5200」の詳細が発表された. 2個の 
CPU , メモリコントローラ，1チヤネルの汎用 I / O コ 
ントローラ，2チヤネルの高速 I / O コントローラ，画 
像プリプロセッサ，データ転送エンジン （ DTE )， 集 
中クロスバーを1チップに内蔵する（表2，図 8). 

2個の CPU は 500 MHz で動作し， 6.16 GFLOPS , 
12.33 G 0 PS という性能を実現する.これは，少し前の 
スーパー コンピュータを超える性能であり，ストリー 
ミングや 3 D グラフイツクスなどの，いわゆるマルチ 
メディアデータの操作に関する性能値も格段に向上す 
ると予測される.ただ，消費電力は 400 MHz 動作時に 
18 W と，それほど小さいわけではない. 

ところで， MAJC は DSP 機能をサポートする画像 
コプロセッサとして設計されている.単体の汎用プロ 
セッサとしては利用できない.ソフトウェアのサボー 
卜も，現状は， SPARC の OS である Solaris のグラフ 
イックスライブラリとしてのみ提供される.ここらへ 
んに理想と現実のギャップがある.結局， Sun は Java 
が高速に動くチップを諦めて ， Java ‘も’高速に動く 
チップに方向転換したのだ. 


Java アクセラレータ 


既存のプロセッサに， Java アプリケーションを高 
速に実行させるための機能を実装するという手法も考 
え出されている.一般的にこれを Java アクセラレー 
夕と呼ぶ.次は各社から発表されている Java アクセ 
ラレータについて説明しよう. 

• Nazomi Communications 社の JSTAR た ) A 108/ 
JSMART 

mkL , Nazomi し ommumcations 社(以下， Nazomi ) 
の Java アクセラレータが話題になっている . Nazomi 
社は，2002年1月16日と3月13日に Java アクセラ 
レータの基本特許 (US #6,338，160, US # 6,332 ,215) を 
獲得し，積極的に自社製品のプロモーションを行って 
いる.その内容は， RISC や CISC を利用した Java プ 
ラット ホームに おけるバイト コードの 動的な最適変換 
を有する命令径路コプロセッサ (instruction path 
coprocessor : IPC ) に関するものである.それを実現 
する製品には， JSTAR , JA 108, JSMART がある. 

Nazomi は JavaVM のハードウエアサポートに肯定 
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マイクロコード 


ALU 


ネイティブ命令 


インタープリ 
卜されたネイ 
ティブ CPU 
命令 


-夕 


CPU コア 


Java PC 


バイト 
□-ド命令 


/ICPU PC JSTAR コプロセッサ アドレス 


表3 

JavaVM のハードウエアイ匕の 
特徴 


的である.某調査会社の「2005年までには JavaVM 
の70%以上が何らかのハードウヱアの助けで高速化 
される」という報告が拠り処である.そのための条件 
として，ソフトウェアによる高速化のコスト（メモリ 
増設などによる）よりも低価格であること ， JavaVM 
を初めとするソフトウェア環境を変更なしで利用でき 
ること（これをトランスペアレント=透過性と呼んで 
いる）が必要と考える.現在， JavaVM のハードウェ 
ア化による高速化に関しては，次の3種類に分類で 
きる. 

(1) バイトコードインタプリタの内蔵と命令セットの 
拡張 

(2) 独立チップ，あるいは， SoC 部品としての Java ア 
クセラレータ 

(3) ネイティブ命令として Java のバイトコードを用 
いる専用 Java プロセッサ 

それぞれの方式の特徴を表3にまとめる . Nazomi 


は， （1) に JSTAR と JSMART を， （2) には Kchip ファ 
ミリ（最初の製品は JA 108) を提供する. （3) のアブ 
ローチは非現実的として考えない.つまり ， Nazomi 
の製品は JavaVM ハードウエア化のすべての要求に応 
えるということであろう. 

JSTAR は論理合成可能な Java コプロセッサであ 
る. CPU とシステムメモリ（あるいは外付け命令キャ 
ッシュ）の中間に位置し，バイトコードを CPU のネイ 
ティブ命令列に変換して CPU に受け渡す(図 9). 

データキャッシュを有効利用するために，キャッシ 
ュ経路は図 10 のように構成する. JSTAR は228種あ 
るバイトコードのうち159命令を直接実行する.それ 
以外はホスト CPU によるソフトウエア エミュ レーシ 
ョン（従来の JavaVM ) に任せる（図 11). 

また，図12に示すように， JSTAR アーキテクチャ 
は Java バイトコードをデコードして最適化されたネ 
イテイブ CPU の命令列を生成するのに2段パイブラ 


アドレス 


ア—夕 


JSTAR アップグレードマイク□プロセッサ 


メモリまたは， 
命令キャッシュ 



MPU の拡張 
(JSTAR など） 

Java アクセラレータ 
.( JA 108 など） 

Java 専用 
プロセッサ 

システム透過性 

あり 

(命令無変更が条件） 

あり 

なし 

デバイス/システムの 

組み込みに要する労力 

低 

低 

高 

JVM を適用する労力 

低 

低 

高 

専用 JVM が必要 

デバイス/システムの 
市場への提供速度 

種々 

速い 

遅い 

専用システム設計 

Java ソフトウエア 
の能 

良い 

最高に近い 

最高に近い 

消費電力 

最高 

かなり良い 

良い 


JSTAR は，メモリがら Java パイトコードを読み出し，それをネイティブ CPU 命令の最適シーケンスに変換する際, 
メモリへのアクセスを最小限に減らし，システム全体の消費電力を低減する_ 


図9 JSTAR の構成図 


インターフエースラツパ 


インタ—フエ—スラツバ 
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図 11 JSTART の状態遷移 

MIPS では 4 K シリーズ， Lexra ( MIPS アーキテクチャ） 
では LX 4180/4189/4280を想定している. 

J A 108は， Nazomi の Kchip ファミリ最初の製品で 
ある. JSTAR が Verilog RTL で供給される IP コアで 
あるのに対し，こちらは単体のアクセラレータチップ 
である.10 x I 0 mm で128ピン BGA , 7 x 7 mm で128 
ピン BGA で提供される.機能的には JSTAR とほとん 
ど同じであり，ホスト CPU や SoC と SRAM に似た双 
方向インターフェースで実装する（図 13). このため， 
簡単にシステムのメモリバスに追加できる仕様になつ 
ている. 

小型ハンドへルド機器，特に無線機器のような 
J 2 ME - CLDC ( KVM ) を利用する小型機器を対象にす 


インを用いる. Java の中間言語は可変長なので，単 
純には命令変換ができないためである. 

まず，プリフェッチユニットが命令ストリームの整 
列とバッファリングを行う.いったん命令がバッファ 
リングされると ， IDP (Instruction Decode , and 
ParaUelism ) ユニットがそれらの命令に対しコンパイ 
ラと同様なフォールディング規則を適用して，最適化 
された命令列を生成する.その後，特許取得の STB 
(Stack and Translation Buffer ) ユニツ トが，スタツ 
クトッブや局所変数のキャッシュといった Java 専用 
スタックの管理を行うとともに，命令列を CPU に引 
き渡す. 

JSTAR を使用すると，従来のソフトウェアによる 
JavaVM と比べて10〜40倍の性能が得られる.消費 
電力も従来の95 %に削減できるという.構造的には 
システム メモリと CPU の間にロジックを揷入するこ 
とになるので，外部には追加端子は必要ない.つまり， 
従来品とそのまま差し替え（ドロップインリプレース） 
が可能なのである. JSTAR の存在はソフトウェアか 
らは見えないので，既存のソフトウェアや開発ツール 
がそのまま流用できる. 

理論的にはすべての JavaVM に適用できるが，現在 
サポートしているのは Personaljava ， CVM , KVM 
( J 2 ME - CDC , J 2 ME - CLDC ) である.適用可能なホス 
卜 CPU として， ARM では ARM 7， ARM 9 シリーズ, 



図10 

JSTART のキャッシュ 
経路 




〆 5 

ソ# 
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図12 JSTART のパイプライン 
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! ! JA108 で実行 |Java ソフ| 

! !可能なコード！トウ: E ノノ！ 

! 同期| は，この中で |の 実彳了 ! 

閉じている ' 

図 13 JA108 の構成図 

る. JA108 は，従来の Java アプリケーションを 200 倍 
に高速化する.このために，システムクロックの高速 
化，メモリ増設，新規ツール，ソフトウヱア移植の努 
力は不要である. 


る.その実用化に成功したのが ARM プロセッサの 
Jazelle 拡張である. Jazelle は ARM 9 で使用可能であ 
る. ARM 10 以降は標準装備になると思われる. 

Jazelle の方式は，バイトコードの直接実行，ソフ 
トウヱアによる実現，未実装例外発生の三つのカテゴ 
リからなる.バイトコードは，4個のスタック用レジ 
スタを使用し，140種を直接実行する.ソフトウェア 
での実現に使用するための特別な Java 専用命令は存 
在しないようである. 

ARM 社による ARM 9 EJ での Caffeine Mark のシミ 
ユレー シヨンでは， 

• 通常の JavaVM … 0.7 CM/MHz 

•ソフトウエアの最適化… 1/7 CM/MHZ 
• 専用 Java プロセッサ… 2.9 CM/MHZ 
• Jazelle (ソフトウヱア最適化を含む） 

… 6- OCM/MHz 


JSMART は， JSTAR のスマートカード対応版であ 
る. JSTAR や JA 108 と同様のトランスペアレント方 
式を採用し，ドロッブインリプレースが可能である. 
違いは， JavaCard 2.1.1 仕様に対応していることと， 
RAM / ROM / フラッシュのメモリ管理機構を内蔵して 
いることである. JSMART を使用することで ， Java 
カードの実行速度を10〜40倍に高速化する.また消 
費電力を95%に削減する. 

2003年9月17日，ルネサステクノロジ（旧：日立製 
作所と三菱電機）と Nazomi は Java プログラムの高速 
実行技術で提携した.ルネサステクノロジは ， Nazomi 
社が提供する Java アクセラレータを自社の CPU コア 
「 SH - Mobile 」 に内蔵する.これは携帯電話で Java 性 
能の高速化が必要と判断されたためと思われる.ルネ 
サステクノロジによれば， SH - Mobile に搭載する Java 
アクセラレータとして複数の技術を検討したところ 
Nazomi の技術がもっとも優れていたという. 

ちなみに， Nazomi とは新幹線「のぞみ」が由来に 
なっているらしい. Nazomi の前身である JEDI Tech 
nologies は，明らかに ， STAR WARS のジエダイの 
騎士が由来であろう.ベンチヤ企業の名称は面白い. 
• ARM 社の Jazelle 

おそらく Java は生き残るが，各社の努力にもかか 
わらず Java プロセッサは絶滅すると思われる.その 
場合でも，バイトコードを直接実行することで得られ 
る10倍以上の性能は魅力的である.バイトコードを 
直接実行する汎用 CPU という発想は当然出てくる. 
先に述べた IBM の VLIW プロセッサも同じ発想であ 


という結果を得ている.実に， Java プロセッサの2倍 
以上の性能を得ることができる.また， Jazelle は消 
費電力の面でも有利で， Jazelle を使用しない場合の 
1/7で済むという. 

Jazelle は Java のバイトコードを直接実行する技術 
である.全体の95%のバイトコードがハードウヱア 
で実行可能である. Java の分岐を静的および動的な 
分岐予測で高速化する.バイトコードの抽出とデコー 
ド処理がパイブラインの中に取り入れられ，ネイティ 
ブコードと同等に実行される.その方式は，命令キヤ 
ッシユとデーコーダの間でネイティブコードへの変換 
を行う JSTAR の方式と酷似している.しかし ， ARM 
はそれとは別のオリジナル技術だと主張している. 

しかしというか案の定，2002年5月28日に Nazomi 
は ARM を Java 特許 ( US # 6,332 ,215) を侵害していると 
して北カリフォルニアの連邦地方裁判所に提訴した. 
Jazelle を潰してしまえば，自社技術 ( JSTAR ) を ARM 
が採用せざるを得なくなるという思惑があるのだろ 
う.今後の推移が注目される. 

2002年になって， ARM の Jazelle の説明が微妙に変 
更されて いる. Java のバイトコ ー ドは， ARM ネイテ 
ィブ， Thumb に続く第3の命令セットであると し， 
命令 デコード ステージで 解釈されると している.つま 
り，パイプラインの デコードステージの 前にバイト 
コー ドからの変換 ステージが 挿入されるのではなく， 
ARM ネイ テイ ブや Thumb と同じレベルで デコード 
され，直接実行される（図 14). これは件の特許対策 
でマイ クロアーキテクチャの 変更が行われたものと考 
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図14 ARM9EJ-S のパイプライン 
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図15 

JVXtreme のブロック図 
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えられる. 

それにしても， Nazomi にしろ，後述する InSilicon 
にしろ， ARM と共に実行することを目指しているの 
が興味深い.やはり， ARM の「組み込み IP コアのシ 
エアが最大」というのが魅力なのだろう. 

• InSillicon 社の JVXtreme 

JVXtreme は InSillicon 社の Java プロセッサであ 
る.その前身である JVX のほうが有名であるが，基本 
構造は同じであると推測される. JVXtreme は Jazelle 
や JSTAR とは異なるアプローチを取る. Jazelle や 
JSTAR がバイトコードをデコードして，ネイティブ 
コードに変換し，ネイティブコードとして実行するの 
に対して， JVXtreme はバイトコードを直接実行する 
(図 15). ユーザーにはその違いは分からないが， 
JVXtreme ではサポートしないバイトコードを実行し 
てくれる CPU が必要である.その意味でのコブロセ 
ッサ （ Java エンジン）である.リリース形態としては， 
SoC 用の IP コアと CPU のメモリ空間にマップされて 
動作する単体チップ形式がある. 

JVXtreme を一言でいうとスタックベースの Java 
エンジンである.結局， picojava と変わりない.しか 


し， picojava とは異なり，直接実行できるバイトコー 
ドが92種とかなり少ない.これは，統計的に実行頻 
度の多い命令のみをハードウェアでサボートすること 
にしたためであり，性能的にはこれで十分と言われて 
いる. 

また，ハードウェアスタックの深さを論理合成時に 
指定できるのが特徴でもある.スタックのオーバフ 
ローやアンダフロー は自動的に処理される （picojava 
のドリブラのようなものか）らしいが',スタックオー 
バフローは実行速度に影響を与えるので最適な値に構 
成するのが望ましい.その目安として，ハノイの塔の 
実行時にスタックオーバフローの確率は24段で1%未 
満，32段もあればほとんどすべてのプログラムで 
オーバ フローは発生しないとされて いる. これは 一つ 
のメソッドしか存在しない場合の話であろう.実際の 
Java プログラムでは，複数のメソッドが並列に動く 
ので，もう少し深いほうが有利だと思う.事実 ， pico 
Java では64段だった. 

JSTAR や Jazelle の アプローチとは 異なり ， JVXtreme 
を使用するためには JavaVM を変更する必要がある. 
図 16 に示すように， CPU は，まず Java のバイトコー 
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図 16 JVXtreme の実行方式 



ドが格納されているアドレス （ PC ) を JVXtreme に渡 
す.その後は， JVXtreme がバイトコードの実行を続 
けていく.もし JVXtreme が実行できないバイトコー 
ドに行き当たると， JVXtreme はその エミュ レーシヨ 
ンプログラム ( CPU 命令で記述）が格納されているア 
ドレスを計算し，そのアドレスを CPU に戻す . CPU 
はそこにジャンプすることでバイトコードを エミュ 
レートする. エミュレ ーシヨン終了後は JVXtreme が 
新しいアドレスを与えてくるまで待ちに入る.その間， 
JVXtreme は並行にバイトコードを実行している. 

現在， InSilicon 社は ARM 7 と ARM 9 用の IP コアを 
用意している.また， ARM の AHB(Advanced High 
speed Bus ) に直結するメモリマップ型のコプロセッ 
サも存在する.この類のアクセラレータでは CPU と 
の通信速度が性能に影響するが， ARM の場合， 
JVXtreme は， CPU からバイトコードのアドレスを与 
えられてから実行を開始するまで5クロックかかると 

いう. 

JVXtreme の動作速度は， 0.18 プロセスで製造 
された場合は 200 MHz というから，まずまずの性能で 
あろう. InSilicon 社は15〜55倍の性能が得られるとし 
ている （ JVX では10倍の性能だった ）. Caffein Mark 
で約1300 CM というから， Jazelle と同程度の性能で 
ある. 

JVXtreme は, Jazelle や JSTAR に対する新機軸と 
してマスコミに取り上げられたが，結局は picojava 
のアーキテクチャに戻っただけである. 

InSilicon の Web サイトには利用可能な IP コアのリ 


ストが掲げられているが，その中に JVX はあるが 
JVXtreme はない. JVX に関しても IP コアリリース 
に関する詳細は不明である.利用に NDA が必要なの 
か，それとも未だにロジックがフィックスしていない 
(早 V 、話が未完成）のか不明であるが. 

• Chicory Systems 社の HotShot 

picojava を嚆矢とし， Jazelle , JSTAR , JVXtreme 
に続く， Java アクセ ラレータの 第3 の 新機軸として登 
場したのが ， Chicory Systems 社の HotShot である. 
他社の方式がバイトコードの直接的な高速実行である 
のに対し， HotShot は別の手法を採用する.それは 
ハードウェアによる JIT(Just In Time :動的コンパ 
イラ）の実現である.つまり，バイトコードを動的に 
ホスト CPU のネイティブコードに変換し，その実行 
はホスト CPU に行わせる方式である. 

この手法は， Transmeta 社の Crusoe ( x 86 命令を専 
用 VLIW に変換）や Transitive 社の Dynamite ( x 86 や 
ARM 命令を PowerPC や MIPS 命令に変換）と同じで 
ある.性能的には，ソフトウェアによる JIT と同程度 
と思われるが ， Chicory Systems 社はバイトコードの 
ソフトウェアインタプリタを使用する場合の25倍の 
性能が得られるとしている. 

HotShot もホスト CPU ( ARM を念頭に置いている 
らしい）のコプロセッサとして動作する.その最大の 
特徴は，バイトコードをネイティブコードにコンパイ 
ルするために種々の最適化を行うことができることで 
ある.他のバイトコードのアクセラレータで最適化と 
いえば，命令フォールデイング程度しかない.現実に 
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図 17 HotShot の動作概念 



は最適化ハードウェアを備え，送られてくる命令列を 
常に解析し続ける.最適化の手法は，ヒューリスティ 
ック（評価関数=早い話が経験論）に基づいた高度なレ 
ジスタ割り付け，関連する演算を一つに結合して1命 
令として実行する特殊な技術，分岐の最適化である. 

HotShot は， Java のメソッドやメソッドの一部分を 
単位として，1クロックに一つのネイティブ命令を生 
成できる.また，バイトコードの冗長な実行をなくす 
ために，主記憶上に LRU 方式のトレースキャッシュ 
(2 K 〜 128 K バイト）を設ける.これは， Pentium 4 の 
命令トレースキャッシュや Crusoe のトレースキャッ 
シュのようなものと考えれば いい. つまり，同じよう 
な処理を何度もコンパイルすることはせず，以前にコ 
ンパイルした結果を使用することで，コンパイル速度 
を稼ぐのだ.バイトコードの実行形式は図 17 のよう 
なものと想像される. 

HotShot の存在意義に関しては議論のあるところで 
ある.わざわざライセンス料を払って，既存のソフト 
ウェアで書かれた JIT を専用プロセッサで置き換える 
価値があるか否かである.ただ，現時点での Chicory 
Systems 社の状況は不明である.その Web サイトの 
URL (http : / / www . chicorysystems . com /) は既 
に存在していない. 

• Zucotto Wireless 社の Xpresso 

世界的な傾向として，携帯電話に複雑なアプリケー 
シヨンを実行させることが流行りである.そこで，携 


帯電話メーカーは自社製品で Java のサポートを表明 
している.しかし，現在の JavaVM の速度は，通信機 
能の余剰能力で動作していることもあり，動作が非常 
に遅い.そこで，組み込み制御分野での専用 Java プ 
ロセッサというソリューシヨンが生まれてくる. 

Zucotto Wireless 社は，ソフトウヱアの最適化や専 
用ハードウェアによるアクセラレータよりも ， Java 
プロセッサは， 

•単位電力当たりの性能 

• 周辺機能として1チップに集積することの容易さ 
の点で利点があるとしている. 

そこで ， Zucotto Wireless 社は Xpresso という Java 
プロセッサを開発した.これは， Java プログラムの 
性能ボトルネックを調査し，性能に効く部分に着目し 
て，チューンナップを行っている（表 4). 

図 18 に Xpresso のブロック図を示す.拡張や種々 
のシステムへの 対応を容易にするために，マイクロ 
コード制御の CISC プロセッサになっている . Xpresso 
の特徴は次のとおり. 

• 32 ビット CISC プロセッサ 
•バイ トコードを直接実行 

• 最適化されたスタックおよび局所変数キャッシュ 
• 単一命令/データキャッシュ 

• RAM に格納された マイクロコー ド制御 

• 5 ステージ パイプライン 
♦静的な分岐予測 
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表 4 

Java 性能のボトルネック 


実装方式 

インタプリタ 

ループの 

才 ーノ 《 ーヘッド 

(クロック数） 

Invoke 
(クロック数） 

ィベント 
/ネイティブ 
(クロック数） 

メモリ管理 

ソフトウェア 

VM プロセッサ 

20 

300以上 

33 

停止して 
メモリ走査 

最適化されたソフト 
ウェアコプロセッサ 

6.7 

300 

10 

停止して 
メモリ走査 

ソフトウェア VM 

Jazelle 

1.1 

300 

33 

停止して 
メモリ走査 

SLICE Xpresso 
プロセッサ 

1.0 

35 

1.0 

スム ー ズ 





キャッシュ 





キャッシュ制御 





命令実行 

プリフェッチ 



順序制御 





マイク□コード RAM 





図18 Xpresso のブロック図 

• ゲート規模： 60 K ゲート 

•ほとんどの命令を1クロックで実行 

• 拡張性の容易さ 

表 4 に示すボトルネックの解消はマイクロコードに 
より実現しやすくなっている （ Xpresso は， 0 S ， ドラ 
イバ，割り込み処理ルーチンを一手に引き受ける 
SLICE というソフトウェアと共同で実行されてい 
る）.つまり，高速処理のため，マイクロコードで次 
のような機能をサポートする. 

1) Invoke 処理 

Java において， Invoke (メソッド呼び出し）は頻繁 
に出現し非常に複雑であり，効率的なアプリケーショ 
ン実行のためにはこの処理の高速化は特に重要である. 
•invokevirtual 
•invokestatic 
•invokeinterface 

2) 外付け周辺，イベント処理，ネイティブ資源への 
イン ターフェース 

Java プログラムから，外部 I / O などネイティブな 
資源へのアクセス時間の短縮や，直接的なイベント処 
理(物理インターフェース）.直接ハードウェアにアク 
セスできる機能を実現する. 


3) メモリ管理 

ガベージコレクシヨン性能とメモリ管理ルーチンの 
性能が要求される.インクリメンタルなガベージコレ 
クションをホストプロセッサの機能を邪魔しないで実 
現している.結果として， Xpresso は次のような高性 
能を達成したという. 

9 CaffeineMarks/MHz 
22.5 CaffeinMarks/mW 

これは，性能的には ARM 9 の Jazelle の約2倍 ， JSTAR 
の約3倍の速度である.省電力的には， ARM 9 の 
Jazell の約4倍， JSTAR の約8倍の効率である. 

# parthus 社の MachStream 

parthus 社は，ハンドへルド機器やモバイル機器の 
インターネット化に着目する.いきおい，それらの機 
器でも複雑なアプリケーションを実行する必要性が生 
じる. parthus 社の MachStream はそのような要求に 
応えるコプロセッサである.図 19 は典型的なモバイ 
ル機器向け ASIC のブロック図である . MachStream 
はシステムバスに結合し，一つの周辺機能として動作 
する.従来との互換性を保ちつつ，集積を容易に行え 
るのが売りの 一つで ある. 

MachStream とは， Java アクセラレータだけでは 
なく， メディア処理などの複数のアクセラレータと並 
列に接続できる.図20は Java アクセラレータを装 
備した場合の] VlachStream のブロック図である.そ 
の動作は次のようになる.その実現方法は ， Chicory 
Systems 社の HotShot に酷似している. 

(1) 特定の Java コードブロックを高速実行するよう 
に JVM ソフトウェアから要求される. 

(2) Java アクセラレータは変換キヤッシユディレクト 
リをチェックし，すでに生成されたコードを再利 
用できるか否かを調べる. 

(3) 生成されたコードがキヤッシユされていなければ， 
Java アクセ ラレータ は Java コードを フェッチ，最 
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図19 

典型的なモバイル 
機器向け ASIC と 
MachStream 


システムパス 周辺バス 



図20 


MachStream Java アクセラレータ 



適化されたネイティブコードの塊を生成，その結 
果をメインメモリの変換キヤッシユ領域にライト 
する. 

(4) コードのポインタが CPU で動作する JVM ソフト 
ウェアに返され，そのコードが実行される. 

図21に MachStream の処理性能，図22に電力性能 
を示す.これらは， ARM 920 コアに MachStream を 
集積した場合の性能であり，ソフトウェアのみの実行 
の35倍の性能を得ることができる.電力性能は約10 
倍以上である. 

• NanoAmp Technology の MOCA-J 

2003年2月12日， NanoAmp Technology は， MOCA - 


J という携帯電話向け Java アクセラレータで J 2 ME の 
実行速度をソフトウヱアのみの処理の20倍に向上さ 
せたと発表した.処理性能が速くなっても電池寿命は 
据え置きのままというのが売りである. 

ほかの Java アクセラレータと同じく，メモリと同じ 
ようにアクセスできる.メモリ速度を稼ぐため，メモ 
リチップと MOCA-J を1チップに MCP ( Multi-Chip 
Package ) 形態で封入する（図 23). 最近流行りの言葉 
で言えば SIP (System In a Pakage ) である.また，こ 
の形態を SMARTcombo-J と呼ぶ. 

MOCA-J アクセラレータは， Java VM で定義されて 
いる227のバイトコードのうち206種を直接（ほとんど 
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MachStream の電力性能 


3 Java プロセッサの今後 

Java プロセッサの存在を知らない人は多いかもし 
れない.しかし，誰もが発想するアイデアには違いな 
い.実際，ハードウェアによる Java の高速化をキー 
ワードにインターネットで検索すると，かなりの種類 
のプロセッサが提案されているのがわかる.たとえば， 
http : / /www. ] dance • com / shop/hardware . shtm 
には 16 種の Java プロセッサが紹介されている.こ 
の中でよく言及されるのが，先に挙げた Jazelle ， 
JSTAR , VMXtreme である.しかし，根本的な実装 
方式（思想）は picojava の拡張（サブセットかも）に過 
ぎない.バイトコードの実行が CPU のパイプライン 
に組み込まれているか，コプロセッサとして動作する 
かである （ HotShot や MachStream のような，動的な 
JIT 方式もあるが). 

ところで， Java プロセッサは本当に必要なのかと 
いうのは， Java プロセッサの発表当時から頻繁に繰 
り返されてきた議論である. LISP や Smalltalk の経験 
から，専用チップを開発するよりも汎用の RISC でソ 
フトウェアのチューニングに注力するほうがいい性能 
を出している. 

また，一般の CPU ベンダは既存の汎用 CPU でも 
Java を効率良よく処理できると主張している.たと 


Sieve 


し 0 op 


Logic 


String 


Method 


0 50 100 150 200 25C 

[ ms ] 

図 21MachStream の処理性能 

の場合)1クロックで実行する. 

ARM の Jazelle や他の Java アクセラレータは，一 
般の命令コードと Java のバイトコードを共通のシス 
テムバスから取り込むため， Java アクセラレータへ 
のバイトコード供給量が低下する. SMARTcombo-J 
は Java コードを取り込むための専用バスを備えるた 
め，バイトコードの供給量が低下することはない（図 
24) . NanoAmp 社は， 「 Jazelle による Java アプリ 
ケーシヨンの性能向上はせいぜい3〜5倍であるが, 
SMARTcombo - J ならば20倍だ」と豪語する.図 24 
は NanoAmp 社が提示した図であるが， Jazelle がバイ 
トコードの翻訳 (On the fly interpretation ) であると 
説明している.現在， ARM 社は Jazelle は翻訳ではな 
いと強調しているが，ここではそのまま示しておく. 

MOCA - J は，現在ダイ形態（裸のシリコン）でサン 
プル配布中であり，2003年の第二四半期に量産予定 
である. MOCA - J を MCP 形態にするのにかかる費用 
は5ドルを超えないという.実際の価格は要交渉とい 
うことらしい. 
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図23 SMARTcombo-J の構造 
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図 24 SMARTcombo-J は専用バスを備える 


えば， ARM は StrongARM のアーキテクチャを Java 
や PostScript などのようなスタックベースの言語の組 
み込みアプリケーションに最適化している.複数レジ 
スタをスタックフレームに一括して退避/回復する命 
令がそれに当たるという（これは Java 用命令というわ 
けではないが). 

さらに， MIPS はメモリのバンド幅を上げることで 
Java の実行を高速化できると主張している(最近では， 
浮動小数点演算の高速化が必須ともいっているが…). 
経験的には，キャッシュの構成を工夫してヒット率を 
向上することができれば，一般の RISC でも JavaVM 
やマルチスレッドを高速に実行できる. Java プロセ 
ッサの提唱者である Sun 自身が， MAJC で一般のプロ 
セッサを目指しているところにその凋落を予感する人 
もいるだろう. 

Java プロセッサの存在意義の拠り処は， Java がイ 
ンターネットと密接な関連があるため爆発的に普及す 
るであろうという予測である.しかし，そういう文化 
的背景を掲げながらも， Java プロセッサは当初から組 
み込み制御分野を目指している.インターネットでの 
応用では，専用プロセッサを作ったとしても， PC や 
EWS の進化によってすぐに性能的に追い越されてし 
まうことが最初からわかっているような主張である. 

ところが，組み込み制御分野に注目してみた場合， 
Java の言語仕様ではリアルタイム制御に向いていな 
いとして， Java の使用に懐疑的な開発者も多い.反 
面， Java を用いれば，セキュリティの保護や個人認 
証を簡単に実現できるという主張もある.つまり， 
1 C カードや無線 LAN での応用が見込める.しかし， 
Java に利点を見出す人々も，汎用 CPU のほうが融通 
が利くと主張する. C / C ++ を高速に処理できる CPU 
は，当然， JavaVM も高速に処理できると.逆もまた 
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真なりで， JavaVM を高速化するためには C / C ++ を 
高速に処理できるアーキテクチャにすればよい.これ 
は一般の CPU の方法論である.セキュリティ実現の 
ためのトレンドは， Java を高速化するよりも，もっ 
と低レベルで基本的な機能である暗号のサポート機能 
などを汎用 CPU の命令セットに実装して対応する傾 
向にある. 

しかし，携帯電話での応用は未知数である . NTT 
ドコモの 503 i で一般化すると思われた Java プロセッ 
サであるが， 504 i では， Java 以外の応用にも対応で 
きるようにと Java 専用ではないアプリケーシヨンチ 
ップを搭載するのが流行のようだ.しかし，今後，さ 
らなる Java 性能が必要となる場面もあるかもしれない. 

まとめ 

結局， Java プロセッサとは何だったのだろうか. 
Sun の一人相撲だったのか. Java の実行をハードウェ 
ア化するという発想は多分間違っていなかった.コブ 
ロセッサとしてしか提供できなかった点が敗因と思わ 
れる. CPU と別チップというのであれば，コストパ 
フォーマンスが悪過ぎる. 

将来， CMP(Chip Multi - Processor ) 技術が進んで く 
れば Java プロセッサ （ IP コアとして）の復権はあるか 
もしれない.つまり， CPU と Java プロセッサを1チ 
ップに集積した形態である.これは， Nazomi 社， 
Zucotto Wireless 社， parthus 社との思惑とも一致す 
る.それまでは， Jazelle のように， CPU がバイト 
コードを直接実行する方式が流行るのだろう（あれ？ 
V 850+ J の立場は？）.いや， GHz を超えるクロック 
の CPU なら，何もしなくても Java 程度はサクサク動 
かせるという意見が大勢か.明日は明日の風が吹く？ 
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コンピュータの誕生以来，さまざまなアーキテクチャの MPU が登場してきた • 本章では，究極の CISC と呼ば 
れる V 60/70 や TRON チップ，そして RISC の代表である MIPS ， ARM , i 860, 88000， SPARC , PowerPC , PA - 
RISC , Alpha の命令セットアーキテクチャについて解説する.豊富な命令数とアドレッシングモードを備え複雑 
化した CISC の反省から RISC が生まれ，そして RISC もまた複雑化していくようすがわかるだろう. 


CISC (Complex Instruction Set Computer = 複雑な 
命令セットのコンピュータ）という言葉は，命令セッ 
卜が複雑な昔のコンピュータの命令セットを揶揄し 
た ， RISC (Reduced Instruction Set Computer = 縮小 
された命令セットのコンピュータ）の研究者が創造し 
た言葉である. CISC と RISC の命令セットには，ど 
のような違いがあるのだろう.本章では具体的な 
MPU の命令セットについて解説することで，それぞ 
れの特徴をみていきたい.そして， MPU の進化や変 
遷につれて命令セットがどう変わっていったのかを知 
っておこう.それは，とりもなおさず MPU 自体の歴 
史ともいえる. 

コンピュータアーキテクチャ 
とは 

• IBM System / 360の時代 
コンピュータアーキテクチャとは何だろうか.実は 
コンピュータアーキテクチャという言葉が初めて使 
われたのは，それほど古くない.1964年 ， Gene M . 
Amdahl 氏らが IBM Journal に寄稿した論文である 
M Architecture of the IBM System /360” の中なので 
ある. 

そこでの定義は，プログラマから見たコンピュータ 
ということ.つまり，命令セットと命令セットの実行 
モデルということだった.その本質は，アーキテクチ 
ャの設計と特定の実装方式を切り離して考えることに 
ある.同じアーキテクチャをもつコンピュータは「フ 
アミリ」と呼ばれ，同じファミリ内であれば，ハード 
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ウェアの実装方法やファームウェアが異なっても，プ 
ログラムに互換性がある.プログラマは命令セットだ 
けを気にしていればよい.この概念はファミリという 
考え方を一般的にし ， IBM System /360 や System / 
370だけでなく， PDP -11 や VAX ， 680 x 0， x 86 アーキ 
テクチャの開発に大きな影響を与えた. 

• コンピュータの方式を示す大きな概念 

しかし技術の発展により， Amdahl 氏らの定義は古 
くなってきた.プログラムの実行はライブラリ，〇 S ， 
システム構成に影響され，命令セットが同じであって 
も互換性があるとは限らない.いまや互換性というの 
は，〇 S とのインターフェースやさまざまな規格を統 
一しないと実現できない.また，アドレス空間のビッ 
卜数，仮想記憶やキャッシュの構成などの実装方式も 
互換性に影響を与えることがある. 

この意味でアーキテクチャという言葉は，現在では 
コンピュータの方式を示す非常に大きな概念になって 
いる.そのため，特定の方式に言及する場合は，命令 
セットならば命令セットアーキテクチャ，実装方式な 
らばマイクロアーキテクチャ （ハー ドウェアアーキテ 
クチャ），システム構成ならシステムアーキテクチャ 
などと，固有の名称を使用するようになっている. 

さて，本書の第1章から第6章までは，おもにコン 
ピュータのマイクロアーキテクチャについて解説し 
てきたが，ここでは命令セットアーキテクチャに注目 
する. 

• 基本的な命令機能はどれも同じ 

MPU の命令セツトアーキテクチャの基本はどれも 
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同じである.データの移動，データの加減乗除，論理 
{寅算 （ AND ， 〇 R ， XOR , NOT ), 上匕較と条件-分岐命 
令である.これらは，整数データや浮動小数点データ 
を処理する演算としてかならず定義されている.場合 
によっては NOT が NOR であったり，比較と条件分岐 
が一つの命令になっていたりするが，実現できる操作 
は同じである.これを基本として，手続き呼び出し命 
令や，割り込み，動作状態を操作するシステム制御命 
令が付加される. 

MPU の種類によっては，整数と浮動小数点以外の 
データ型をサポートしているものもある.それら新し 
いデータ型に対しては，専用の演算命令が用意される. 
たとえば，連続する整数データを文字列またはビット 
列とみなして，それらに特殊な処理を施す命令(文字 
列の転送，文字列の比較，文字やビットのサーチ）が 
考えられる. 

また，いくつかの命令機能を一つの命令で実現させ 
るようにすると，命令数はどんどん増加していく.そ 
の極端な例が CISC であろう. 

• 2 オペランド形式と 3 オペランド形式 

MPU の命令は，命令コード（オペコード）とオペラ 
ンドからなる.このオペランドの個数が，命令セット 
アーキテクチャを特徴付ける一要素となっている•こ 
れには，オペランドを2個もつ2オペランド形式と， 
オペランドを3個もつ 3 オペランド形式がある. 

一般的なデータ処理を考える場合，転送はソースオ 
ペランドとデステイネーションオペランドの二つが決 
まれば実現できる.しかし，演算には 二つの ソースオ 
ペランドと 一つの デステイネーションオペランドが必 
要である.つまり，ソース1とソース2を演算して結 
果をデスティネーションに格納する.よって，オペラ 
ンドの個数としては3個がもっとも自然であろう. 

しかし，世の中の MPU は2オペランド形式を採用 
しているものも多い.この形式は，演算において片方 
のソースをデスティネーションと兼用する.また，片 
方のソースが破壊されるという意味で， 3オペランド 
形式よりもプログラミングの自由度が低い.では，な 
ぜ2オペランド形式が採用されるのかというと，それ 
は命令長を節約できるからである. 

• 命令長について 

たとえば，アーキテクチャ的に32本のレジスタを 
使用できる場合を考えると，レジスタを指定するため 
にはオペランドに5ビット分の領域が必要である.一 
つの命令内でレジスタを指定する総ビット数は，2才 


ペランド形式では 5 X 2 = 10ビット，3オペランド形 
式では 5 X 3 =15ビットである.もし，命令長が固定 
されていると考えると，3オペランド形式では2オペ 
ランド形式に比べて5ビット分もオペコード指定に使 
えるビット数が減ってしまう.つまり，命令の種類が 
制限されてしまう.逆に考えると，同じ数の命令を実 
現するには， 3オペランド形式は2オペランド形式よ 
りも命令長が長くなるのだ. 

一般的に， RISC は命令デコードのしやすさとの兼 
ね合いから32ビット固定長の命令を採用する場合が 
多い.しかし， x 86 に代表される CISC は，バス速度 
が遅かった昔の名残で，命令コードを短時間に取り込 
む工夫，つまり，命令長を短くする工夫をしている. 
その一環が2オペランド形式である.さらに CISC で 
は，多様なアドレッシングモードを指定可能とするた 
めに，ただでさえ長くなりがちな命令長をバイト単位 
の可変長にすることで対応している. 

• アキュムレータ形式/スタック形式 

オペランド形式としては，2オペランド形式，3才 
ペランド形式のほかに，演算可能なレジスタをアキュ 
ムレータ（特殊レジスタ）に限定するアキュムレータ形 
式，演算をスタック上で行うスタック形式がある. 

アキュムレータ形式は，演算器に直結するレジスタ 
をアキュムレータに限定する.オペランドの 一つが ア 
キュムレータであることがわかっているので，その分 
だけ命令コードを短くできる利点がある.これは，卜 
ランジスタの集積規模が小さく，すべてのレジスタを 
演算器に接続できなかった昔の MPU ， たとえば，8080 
や Z 80 によく見られる. 

演算をスタック上でしか行わない点で，スタック形 
式はアキュムレータ形式の特殊なものとみなすことも 
できる.しかし，アキュムレータが，通常は一つしか 
ないのに対して，スタックは理論上無限の個数があり， 
複数の中間結果を同時に格納できるという点で，式の 
計算を実現するのに便利である. 


3 CISC の命令セツト 


# 複雑な命令セットのコンピュータ = CISC 

当然のことながら RISC 誕生以前は，いわゆる CISC 
しかないわけで， CISC 命令セットがコンピュータの 
命令セットの原点である. 

CISC の命令セットは，一部に簡単な処理を行う命 
令もあるが，大半は複雑な処理を行う命令の集合であ 




表 1V60/V70 の命令の種類 

♦転送 
• 整数演算 
• 比較 
• 論理演算 

• シフト/口ーテート 
♦実効アドレス計算 
•単ービット操作 

•ビットフィールド（揷入，抽出，比較) 

•ビットストリング転送 

• 文字ストリング転送 

*10 進演算 

• 浮動小数点演算 

•手続き呼び出し 

•分岐 

• PSW (Program Status Word ) 操作 
•MMU 制御 
•入出力 
籲タスク制御 

•アトミック（不可分）命令_ 


る.複雑とは，一つの命令で多くの処理を行うためで 
ある.これはメモリのアクセス時間が遅かった時代に 
コンピュータの実行性能を高めるために行った自然な 
選択である.プログラミング言語のコンパイラやイン 
タプリタで行う処理を少ない命令で効率的に実現した 
り， 0 S の操作を効率的に行ったりするための工夫が 
盛り込まれている. 

その特徴を V60/V70(NEC) と TR0N チップで見て 
いこう.これらの MPU の命令セットが完成した時期 
は CISC の後期に属し，その意味からも，ほかの CISC 
の命令セットの「いいとこ取り」であり，究極の CISC 
ともいえるからだ. 

• V60/V 70の命令セットの特徴 

V6(VV70 の命令の種類を表 1 に示す.命令長は1バ 
イトから22バイトまで存在し，2オペランド方式であ 
る.そして，ソースとデスティネーションは21種の 
アドレッシングモードを独立して指定できる.これを 
V60/V70 では「対称性」と呼んでいる.なお，命令 
長を短縮するために，片方のオペランドがレジスタ 
の場合は短縮型の命令形式が用意されている.また， 
データ型は次に示す14種で，それぞれのデータ型に 
関してすベての演算(意味がある場合)が定義されてい 
る.これを「直交性」と呼んでいる. 

•整数(バイト ，ハーフ ワード，ワード，ダブルワード） 

•ポインタ 

•ビット 

•ビツ トフ ィールド 
籲ビツ トストリング 
•10 進数(パック，アンパック） 


• 文字ストリング（バイト，ハーフワード） 

• 浮動小数点データ（単精度，倍精度） 

このように， V60/V70 の命令セットの特徴は対称 
性，直交性に優れていることである.これはプログラ 
ムの書きやすさはもちろんだが，コンパイラの作成を 
容易にするという意図がある. 

• 命令の特徴 

V60/V70 で特色のある命令を見ていこう.その項 
目を検証することで， CISC の命令セットがどのよう 
な項目を重要と考えていたかが推測できる. 

►手続き呼び出し関連 

手続き呼び出し命令は，高級言語のコンパイラを実 
現するための要である. C コンバイラにおいて，手続 
き呼び出しは一般に次のようなシーケンスをとる. 
•引き数をスタックに積む （ PUSH 命令） 

•手続きを呼び出す ( CALL 命令） 

• ローカル変数のためのスタックフレームを作成する 

(prepare 命令） 

• レジスタ変数に使用するレジスタを一括して退避す 
る （ PUSHM 命令） 

•手続きの実行 

• 退避したレジスタを一括して回復する （ P 0 PM 命令） 
•スタックフレームを解放する （ DISPOSE 命令） 

• 手続きから復帰する （ RET 命令） 

•引き数領域を開放する 
( POP 命令または ADD によるスタックの補正） 
このように V6(VV70 では，それぞれの処理に対応 
する専用命令が用意されている. V60/V70 の手続き 
呼び出しで特徴的なのは，アーギュメント（引き数)ポ 
インタという概念である.これは引き数を参照するた 
めのベースレジスタであり， call 命令によって値が 
設定される•アーギュメントポインタは， C コンパイ 
ラでは CALL 命令実行時のスタックのトップだが， 
FORTRAN や COBOL では別の場所になる.それら 
に対処したわけである.ローカル変数に関しては，ほ 
かのアーキテクチャと同じくフレームボインタをベー 
スとして参照する.また RET 命令は，オペランドの 
値でスタックポインタを補正することもできる.つま 
り，スタックにある引き数領域を RET 命令実行時に 
解放することもできるわけだ. C コンパイラでは呼び 
出し側で引き数領域を解放するので，これは PASCAL 
コンパイラ用である. 

なお，これらの手続き呼び出しシーケンスは， VAX 
のそれに非常に強い影響を受けていることを付け加え 


314 



_ ‘ 

第11章命令セットアーキテクチャの変遷 


ておく. 

►ビットストリング操作/ビットフィールド操作 

この命令はビットマップ グラフイ ックのデータ処理 
に用いる.この命令により，メモリ中の任意のビット 
位置から任意のビット長のビット列どうしに NOT , 
AND , OR , XOR , AND - not , OR - not , XOR-not な 
どの論理演算を施す BitBlt 処理を行える.ビットスト 
リング操作のうち，ビット列の連続する〇または1を 
計数する命令は，現在でも FAX 処理や画像の圧縮伸 
張に応用できる. 

ビットストリング命令に似た命令にビットフィール 
ド命令がある.これはメモリの任意の位置から指定し 
たビット長のフィールドを抽出/比較したり，メモリ 
の任意の位置から指定したビット長のフィールドに 
データを挿入したりできる.この命令も画像の圧縮伸 
張に使用可能だ. 

►文字ストリング操作 

C 言言昔で いつところの strcpy ， strcmp , strlen 
などのライブラリ関数の機能を1命令で実行できるも 
のだ.転送の単位は8ビットと16ビットがあり，漢字 
コードの 転送にも考慮している. ソースと デスティ 
ネーシヨ ンの文字 スト リングが オーバーラップ する 場 
合も正常な転送ができるように，逆方向から転送する 
命令もある.これらの命令は大型計算機の ACOS の 
データ転送命令を参考にしたといわれている. 

►10 進演算 

COBOL などでの使用を考慮し，10進数の文字コー 
ドを直接加減算する命令がある. BCD 形式(パック型） 
の10進数も演算できる.現在は不明だが，以前，世 
界でもっとも多く使われているコンピュータ言語は 
COBOL だった.10進演算命令は， COBOL における 
数値処理を高速に処理するためのものである. 

► MMU 制御 

ATE (Area Table Entry ) や ， PTE (Page Table 
Entry ) といったアドレス変換 テーブルの 内容を， そ 
の各エントリに関連する仮想アドレスによる指定で直 
接リード/ライト可能な UPDATE , GETATE , UPDPTE , 
GETPTE 命令や，仮想アドレスと対になる物理アドレ 
スを得る GETRA 命令などがある.また，各実行レべ 
ルからのアクセスの可否を判断する CHKAR / CHKAW / 
CHKAE 命令，実行レベルを変更する CHLVL 命令があ 
る. TLB の操作に関しては，指定した仮想アドレス 
にヒットするエントリを無効化する CLRTLB 命令と， 
すべての エントリを無効化する CLRTLBA 命令がある. 


TLB 内容の入れ替えは自動的に行われるため， TLB 
の内容を直接操作する命令はない. 

► コンテキスト切り替え 

マルチタスク環境下でのタスク切り替えを1命令で 
実行する，コンテキスト切り替え命令 （ LDTASK / 
STTASK ) がある.この命令は， V 6 CVV 70 のレジスタ 
セットや仮想記憶情報を選択的にメモリ中にあるタス 
ク制御ブロックの内容と入れ替えることができる. 
►アトミック命令 

マルチプロセッサ環境でのセマフォを実現するため 
のテストアンドセット命令 （ TASI ) と，コンペアアン 
ドスワップ命令 （ CAXI ) がある.これらの命令はバス 
をロックして操作を行うアトミック命令である. 

►非同期トラップ 

これは命令ではなく， OS の機能をサポートするし 
くみである.非同期というのは，トラップが発生する 
条件があつてもただちに例外処理に移行するのではな 
く，あと （ RETI 命令の実行時）まで遅延させることを 
意味する.つまり，条件の成立と発生が同時でないこ 
とを示す. V 60/ V 70 では， OS のための非同期システ 
ムトラップとユーザータスクで使用できる非同期タス 
クトラップが'提供される. 

• V80 での高速化項目 

V 6 CVV 70 の後継機種である V 80 の命令セットは， 
基本的に V 60/ V 70 と同一である.機能的には V 60 で 
完成していると考えられたからだ. V 6( VV 70 の命令 
セットを見ると，コンパイラの作成しやすさ， OS の 
書きやすさを第一に考えているのがわかる. V 80 では 
これをさらに高速化することに注力している.具体的 
には，次に示すような項目である. 

•基本命令のハードワイヤードロジック化 

• SP(Stack Pointer ) のフォワーデイング 
• CALL / RET の高速化， RETI の高速化 
•文字ストリング操作のハードウエア化 
•ビットフィールド操作の高速化 
•ビットストリング操作の高速化 

• TLB 入れ替えのハードウエア化 

• FPU の高速化，乗算器 
• 分岐予測機能の採用 
•キヤッシュの採用 

•アトミック命令の追加 ( ADDI / SUBI / ANDI / ORI ) 
これらの機能の導入により，表2に示すような性能 
向上が得られたという.現在の MPU の実行クロック 
数からみればかなり低性能であるが，当時としてはか 
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表 2 V 80 での高速化の実際（実行 クロック 数) 


表3 TRON チップの命令の種類 


機能 

命令，条件など 

V 70 

V 80 

転送 

MOV.W reg,mem 

4 

2 

MOV.W mem,reg 

4 

2 

整数演算 

ADD.W reg,mem 

2 

2 

ADD.W mem,reg 

4 

2 

ADD.W mem,mem 

8 

4 

整数乗算 

MUL.W 

23 

9 

整数除算 

DIV.W 

43 

39 

シフト 

SHA.W 

17 

3 

分岐 

Branch Taken 

11 

2 

Not Taken 

4 

4 

手続き関連 

CALL & RET 

44 

21 

ビット 
フイ ー ルド 

EXTBFZ 

30 

10 

INSBFZ 

28 

10 

文字列操作 

MOVCU.B(n bytes) 

30 + 5« 

19 + 1.25 /j 

浮動小数点 

(単精度） 

ADDF.S 

120 

36 

MULF.S 

116 

44 

DIVF.S 

137 

75 

浮動小数点 

(倍精度:！ 

ADDF.L 

78 

75 

MULF.L 

270 

110 

DIVF.L 

590 

553 

割り込み復帰 

RET IS 

80 

22 

コンテキスト 

切り替え 

LDTASK(44words) 

347 

157 

STTASK(44words) 

200 

121 

TLB ミス処理 

異なるエリア 

58 

11 

同ー エリア 

58 

6 

割り込み応答 

ハンドラ実行まで 

165 

27 


なり高速だった. 

• TRON チップの 命令 セットの 種類 

TRON チップの命令セットで提供される命令の種 
類を表3に示す.これはどう晶貭目に見ても V 60/ V 70 
の命令セットの2番煎じの感を免れない.基本的な命 
令セットはほぼ同じで，あえて新規性を見出すとすれ 
ばキュー(待ち行列)操作命令くらいだろうか.これを 
好意的に考えれば「目指すところは誰でも同じ」とい 
えるだろう. 

V 60/ V 70 のほうが TRON チップよりも歴史が古いの 
だが， V 60/ V 70 は歴史の中に埋もれ，官民一体となっ 
た研究の強みなのか， TRON チップは日本オリジナル 
の MPU として今だに言及されることがある. 

TRQN チップの命令セットの特徴は基本命令の高 
速実行と命令の対称性の実現ということに尽きる.高 
速実行とは短い命令長のことを指し，命令フェッチが 
高速に行えることを意味する（命令キャッシュのない 
状況では）.算術演算命令についていえば， V 60/ V 70 
では最小の命令長が3バイトだったのに対し， TRON 
では2バイトである.ただし，これは汎用レジスタの 


• 転送命令 
• 比較命令 
• 算術演算命令 
• 論理演算命令 
•シフト 命令 
•ビット 操作命令 

• 固定長ヒッ トフィール ド操作命令 
• 任意長ビッ トフィール ド操作命令 
• 10進演算命令 
•スト リング命令 
•キュー 操作命令 
• 分岐命令 

•マルチプロセッサ 命令（アトミ ッ ク命令) 
♦制御空間，物理空間操作命令 
• OS 関連命令 
• MMU 関連命令 


本数が V 60/ V 70 では32本であるが， TRON では16本 
なので命令の符号化が少ないビット数で行えることも 
一因であろう. 

このように，短い命令長を実現しながら命令の対称 
性も両立させている.そして，この対称性こそが 
TRON チップの命令セットの本質である. TRON チ 
ップが発表された時代はソフトウェア危機が真剣に議 
論された時代であり，ソフトウェアの生産性を高める 
命令セットが最善とされていた.つまり，それはソフ 
トウェアの作りやすい命令セットであり，取りも直さ 
ず対称性のよい命令セットである.この考えはコンパ 
イラを作りやすい命令セットへと行き着く. TRON 
チップの提唱者である坂村健氏による命令セットの解 
説を，参考文献 3) より以下に引用する. 

「高級言語でプログラミングを行う場合には，プロ 
グラマから直接プロセッサのアーキテクチャが見え 
るわけではないので，質のよいコンパイラさえでき 
れば，アーキテクチャがどうなっていてもかまわな 
いという考えがある.しかし，プロセッサのアーキ 
テクチャが悪いと，質のよいコンパイラを作るのが 
非常に難しくなり，実用的なコンパイラができるま 
で何年もかかってしまう場合がある.したがって， 
コンパイラが作りやすいことは，チップを普及させ 
るための重要な要素である.」 

対称性が良く短い命令長を実現するために， TRON 
チップでは，命令の対称性が良く機能の高い「一般形」 
の命令形式と，機能は制限されるが命令長の短い「短 
縮形」の命令形式の2種類を用意している. MOV (転 
送）命令や CMP (比較）命令のように出現頻度の高い命 
令に対してはより多くの種類の短縮形が用意されてい 
る.この考え方は V 60/ V 70 も同じである.しかし， 
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TRON チップではこのほかに命令の対称性を高める 
ために，「多段間接アドレッシングモード」と「異種 
サイズ間の演算機能」を用意している.一般にアドレ 
ッシングは，スケーリング，加算，間接参照の組み合 
わせであるが， TRON チップはこの 3 種の演算を自由 
に複数回組み合わせることができる（実装上の回数制 
限はある）.坂村氏は，上述の文献でこの理由を次の 
ように述べている. 

「多段間接モードは，非常に汎用性の高い間接アド 
レシングの機能である.（中略）この機能は， AI 応 
用やモジュール化プログラミング等に特に効果があ 
る.従来のプロセッサの場合は，間接参照の機能が 
あったとしても，インデックス用レジスタを加算す 
るのは間接參照後に限られるとか，2個のインデッ 
クス用レジスタを加算することはできないとかとい 
った制限が多く，コンパイラがそれを利用できる場 
合は限られていた.」注 1 

「一般に，アドレス演算やレジスタ上での演算はそ 
のプロセッサの基本サイズ（レジスタのサイズ）で行 
われるのが普通であるが，メモリにデータを格納す 
るときには，データの範囲に合わせた最小限のサイ 
ズを使用することが多い.したがって，データのサ 
イズ変換を行う頻度はかなり高い. TRON チップ 
の異種サイズ間演算機能を利用すると，整数データ 
のサイズ変換と演算を同時に行えるため，効率のよ 
いプログラミングが可能である.」注 2 
• TRON チップの命令セットの特徴 

さて， TRON チップの命令セットの特徴は(坂村健氏 
が提唱するリアルタイム 0S である） ITRON, BTRON 
をサボートするために便利な機能を命令として提供す 
ることである.さすがに TRON という OS を動かすた 
めに提唱された命令セットである.これらについて以 
下に説明する. 

►分岐命令 

これは〇 S 用の命令ではないが，特に取り上げてお 
く. TRON チップではループ処理の終端で現れる命 
令列の加算/比較/分岐 ( ACB 命令），減算/比較/分岐 
( SCB 命令）といった命令列を1命令で提供する.これ 
は一般的な減算&分岐命令 (Decrement and Branch) 


... … - 

11章命令セツトアーキテクチャの変遷 

- .. ^ _ . .. '.ノノ , ^ , . , , . , ■ へ . . . 


を拡張したものであるが，いかにも CISC という感じ 
である.多分，当時のアーキテクチャ設計者は誰でも 
導入を考えたはずだ. 

► コンテキスト切り替え命令 
これは V60/V70 におけるコンテキスト切り替え命 
令と同じである. ITRON におけるタスク切り替えを 
高速に行うため，コンテキストのロード （ LDCTX )/ ス 
トア ( STCTX ) 命令を提供する. 

►キュー操作命令 

ITRON におけるタスクのレデイーキュー管理のた 
めの，双方向リンクキューに対する挿入 ( QINS ), 削除 
( QDEL ) ,サーチ ( QSCH ) 命令がある.この命令は割り込 
みが入ってからそれを処理するタスクが起動するまで 
の時間を高速化し，リアルタイム応答性を向上させる. 
►可変長ビットフィールド命令 

これは V 60/ V 70 におけるビットストリング操作 
命令と同じである.ビットマップディスプレイでのウ 
ィンドウ操作のための命令だ.任意長のビットフィー 
ルド間でのビットマップ演算命令 ( AND ， OR など16種 
類），ビットマップ転送 ( BVCPY ), 同ーパターンとの 
演算 ( BVMAT ) , 0または1のサーチ （ BVSCH ) のための 
命令を用意している. 

►ストリング操作命令 

これは V60/V70 における文字ストリング操作命令と 
同じである.文字（テキスト）処理を高速に実行するた 
めのストリングのコピー （ SMOV ), 比較 （ SCMP ), サー 
チ （ SSCH ), フイル （ SSTR ) がある. BTRON 向けの命 
令セットである. 

►マルチプロセッサ命令 

バスをロックした状態で，指定したアドレス中の指 
定ビットをセット （ BSETI ) ，クリア （ BCLRI ) ，比較と 
ストア （ CSI ) を実行する. 

► MMU 関連 

アドレス変換テーブルのエントリの内容の更新 
( LDATE ) ,参照 （ STATE ), TLB のパージ （ PTLB ) ，仮 
想アドレスの論理アドレスへの変換 ( MOVPA )， 4レべ 
ルの実行レベルから指定のアドレスをアクセスできる 
かどうかのチェック （ ACS ) を行う命令がある. TRON 
チップにおいても TLB 入れ替えは自動的に処理され 


注1:筆者意見…説明が的を射ていない気がする.メモリ間接の意義は合目的なものではなく，ポインタ処理の高速化にある.しかしメ 
モリを1回以上参照すると，パイプラインが乱れるのであまり効果はない.とはいえ，命令コード（バイト数)の節約にはなる. 

注2 :筆者意見…この機能はメモリと直接演算する場合は便利かもしれない.しかした いていの 最適化 コンパイラは， データをレジスタ 
に引き上げてから演算するので無意味ではないか.ロード/ストアアーキテクチャの対極にあるような機能だと思われる.当時の 
コンパイラの最適化技術を考えれば，当然の帰結だったかもしれないが… 
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表 4 V 60/ V 70/ V 80 と TRON チップの性能比較 


MPU 

性能 

開発元 

発表時期 

V 60 

3.5 MIPS @16 MHz 

( NEC ) 

1986年 

V 70 

6.6 MIPS @20 MHz 

( NEC ) 

1987年 

V 80 

16.5 MIPS @33 MHz 

( NEC ) 

1989年 

Gmicro /100 

5 MIPS @20 MHz 

(三菱電機） 

1989年 

Gmicro /200 

6 MIPS @20 MHz 

(日立製作所） 

1988年 

TX 1 

5 MIPS @25 MHz 

(東芝） 

1988年 

Gmicro /300 

17 MIPS @25 MHz 

(富士通） 

1989年 

Gmicro /400 

??? 

(三菱電機） 

???? 

Gmicro /500 

132 MIPS @66 MHz 

(日立製作所） 

1993年 


るため， TLB の内容を直接操作する命令は用意され 

ていない. 

•実チップでの実装 

当時の文献を読むと， TRON チップの命令セット 
を実チップに実装する場合， V 80 の場合とは異なった 
アプローチが採られていることに気付く. V 80 では性 
能のキーポイントとなる命令や操作を高速化すること 
でプログラム自体の性能を向上させようとしている. 
それに対し， TRON チップはパイプライン処理をい 
かに効率的に行うかに注力している.チップの実装と 
しては TRON チップの方式のほうが王道という気も 
するが，命令処理の実行クロック数が一定にならない 
CISC において，本当に効率的なパイプライン処理を 
実現できたか否かは疑問である. 

TRON チップの後期を飾った Gmicro /100/300/500 
で採用された高速化手法を，とりあえず列挙しておく. 
Gmicro /300 のアプローチは V 80 のそれに近いかもし 


籲ストアバツフア 

► Gmicro /500 における高速化 

♦スーパースカラ 

• 分岐命令キャッシュ（無条件分岐のみ) 
•分岐復帰バッファ （8 レベル） 

•ストアバッファ 


3 崩れた神話 


RISC へ至る道 


• 直交性に優れた命令を用意したが …… 

コンパイラに優しい CISC の命令セットは，良質の 
コンパイラの登場を約束するはずだった.しかし，現 
実はその思惑どおりには進まなかった.多種多様な命 
令とアドレッシングモードがあればコンパイラを作り 
やすいのは確かである.しかし，コンパイラが生成す 
る命令コードの性能という観点から見ると，パイプラ 
インを有効活用できないような複雑な命令は不利だと 
いうことがわかってきた. 

CISC の時代にはまだバス速度が遅く，複雑な1命 
令がよいか，単純な複数命令がよいかということは一 
概にはいえなかった.しかし，内蔵キヤッシユが一般 
的になると，単純な複数命令のほうが有利となった. 
また，パイプライン処理を前提とすると，一つの命令 
で多くの処理を行うよりも，単純な命令に分解して実 
行するほうがスループットも高い.さらに，コンパイ 
ラの最適化技術が進むと，ロー ド/ストア以外ではメ 
モリ参照を行わなくなる.つまり，命令のオペランド 
はレジスタだけで事足りる.そして，パイプラインを 


れない.表 4 に V 60/ V 70/ V 80 と各 TRON チップの性 
能比較(公称値）を示す. Gmicro /500 は別格としても， 
V 80 や Gmicro /300 での高速化はそれなりに成功して 
いるといえよう. Gmicro /500 に関しては ， Pentium 
(無印）と同時期に登場し，同性能の性能を得ることが 
できたと，少し前の坂村氏の論文に書いてあったが， 
Gmicro /500 は実際に出荷されたのだろうか.日立製 
作所と三菱電機が製造して1994年 （ ？ ） に出荷予定と 
いう新聞記事は見たことあるが… 

► Gmicro /1 00における高速化 
• 分岐予測 

• 分岐バッファ（分岐先命令のキヤッシュ） 

► Gmicro /300 における高速化 

• 基本命令の1クロック実行 
*10 進命令の高速化 

籲キャッシュ 


乱すメモリ間接アドレッシングはほとんど使用しなく 
なったのだ. 

• 単純な命令に置き換えて性能向上 

バス速度がある程度速いという条件で， CISC の専 
用命令を単純な命令に置き換えることにより，パイプ 
ラインがスムーズに流れるようになり，結果として性 
能が向上する例をいくつか示す. 

► V 60/ V 70 のスタック操作命令 
時代の経過とともに，この置き換えと同様な処理は， 
x 86 のコンパイラでも積極的に採用されるようになっ 
た.つまり， ENTER/LEAVE 命令は PUSH/POP と ADD / 
SUB 命令に置き換えられ， PUSHA/POPA が使用される 
ことはほとんどなかった（リスト 1). 

►一般的な手続き呼び出し 
この置き換えの発想は， RISC の JAL (Jump And 
Link ) 命令にある.これは，手続き呼び出しに（でき 
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11 章 


命令セ 


トアーキテクチャの変遷 


リスト1 V 60 ハ/70フ^タックイ乍^^^^ ___ _ __ _ _ _川麵酬咖 _ _卿__卿 


PUSHM 0m<rl-r3> 


PREPARE #12 

/* 命令置き換えその 1 

(PUSHM は余分な前処理と後処理が必要なので遅いためそれぞれ PUSH する ）*/ 

PUSH rl 

PUSH r2 

PUSH r3 


/* 命令置き換え */ 

MOVE.W fp,-4[spl 

ADD.W #-4,sp 

MOVE.W sp,fp 

ADD.W #-12, sp 

/* 命令置き換えその 2 

(PUSH の連続はスタックボインタがレジスタノ V ザードになるので， 
sp をインデックスにしてストア ）*/ 

MOVE.W rl,-4[sp] 

MOVE.W r2,-8[sp] 

MOVE.W r3,-12[sp] 

ADD.W #-12, sp 

(b) Prepare Stack Frame 

( スタックフレームの生成） 


DISPOSE 

/* 命令置き換え */ 

MOVE.W 0[fp],fp 

ADD.W #4,sp 

(a) Push Multiple ( 複数レジスタの同時プッシユ） 


(c) Dispose Stack Frame 

( スタックフレームの破棄 ) 


リスト2—般的な手続き呼び出し 


JSR target 


RSR 

/ * 命令置き換足 */ 


/* 命令置き換え */ 

LoadAddr next,ra /* 戻りアドレスをレジスタ （ ra) に入れて */ 


JR ra /* レジスタ間接ジャンプ */ 

JUMP target /* target へソヤンプ */ 



next : 




( a ) Jump to Subroutine ( b ) Return from Subroutine 


るだけ）スタックを使わないというものである.もち 
ろん引き数はレジスタ渡しする.この場合，従来の手 
続き呼び出し命令はジャンプ命令を用いてリスト2の 
ように置き換えられる.戻りアドレスはレジスタに格 
納する. 

さすがにここまで割り切ったコンパイラは少なかっ 
たが(せっかく用意されている CALL 命令や JSR 命令 
を使わないのは心苦しかったのだろう），引き数のレ 
ジスタ渡しは積極的に行われるようになった. RISC 
コンパイラの技術を受けて CISC のコンパイラもそれ 
なりに進化したのである. 

• TR 0 N では逆の主張もあつたが… 

TR 0 N チップの Web サイトで次のようなプログラ 
ム例を見つけたので紹介しておく.ここでの趣旨は， 
いわゆる CISC 命令は単純な RISC 命令で置き換えて 
も性能は向上しないというものだ. 

実例がキャッシュを搭載していない（分岐バッファ 
を命令キャッシュに割り当てることはできるが) Gmicro 
/100 での話なので， Gmicro /300 や Gmicro /500 では事 
情は異なると思うが，一応掲載されたままの性能値を 
紹介しておく. 

► ダブルリンクトキューの挿入命令 

リアルタイム 0 S において， QINS 命令はタスク切り 
替え時のレディーキューの操作に使用される. TR 0 N 


リスト3ダブルリンクトキューの挿入命令 

QINS @(R1,F0R)<@(RDQ_TBL,R2*8) 

/* 命令置ぎ換え ★/ 

MOV @ (RDQ 一 TBL+4 , R2 * 8 ) , Rn 

MOV Rl, @ (RDQ—TBL+ 4, R2 * 8 ) 

MOVA @ (RDQ_TBL,R2*8),@(R1,FOR) 

MOV Rn,@(Rl,BACK) 

MOV Rl,@(Rn,FOR) 


アーキテクチャでは，これを 1 命令で実現でき，12バ 
イト長で 18 クロックの実行時間である.これを単純 
な命令で置き換えるとリスト3のようになる.これに 
は 36 バイトが必要で，実行時間は 26 クロックである. 
これでは各命令が1クロック実行になると性能が逆転 
するのではないだろうか. 

►可変長ビットフィールド内のビット検索 

これは最高の優先順位を持つタスクを見つけるため 
に，リアルタイム OS のタスクスケジューラで使われ 
る.この操作は TRON アーキテクチャのビットフ 
ィールド操作命令を使用してリスト4のように記述で 
きる.これは 14 バイトのコード長で，実行に 62 クロ 
ックかかる. 

これを単純な命令で置き換えると， 78 バイトのコー 
ド長で実行に 244 クロックかかる. 

このプログラムはうまく書けば2回目のループは不 
要であり，メモリ参照の回数を削減できる.最後の2 
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リスト 4 可変長ビットフィールド内のビット検索 


MOVA @RBQ_BIT , R0 

MOV #0,R1 

MOV #272,R2 


BVSCH/F/1 



/* 命令置き換え 

*/ 


MOVA 

@RDQ_BIT,R0 

MOV 

#0,R1 


MOV 

#0,R2 


MOV 

#7,R3 


MOV 

#0,R4 

SRCH1 : 

CMP.W 

#0,@R0 


BNE 

FOUNDl 


ADD 

#4, R0 


ACB 

#1,R1,#8,SRCH1 

FOUND1 : 

SRCH2 : 

CMP.B 

#0,@R0 


BNE 

FOUND2 


ADD 

#1,R0 


ACB 

#1,R2,#3,SRCH2 

FOUND2: 

MOV.B 

@R0,R4 


MOV.W 

#H'FE,R5 

SRCH3 : 

AND.B 

R5,R4 


BEQ 

FOUND3 


SHL.B 

#1,R5 


SCB 

#1,R3,#0,SRCH3 

FOUND3 : 

SHL 

#5,R1 


SHL 

#3,R2 


ADD 

R2,R1 


ADD 

R3,R1 


個のシフト命令も不要になる.実際は244クロックよ 
り短い時間で実行可能と思われる. 

► 結局は効果がないのでは… 

上の二つの例は，複雑な命令の有利性が確かだとし 
ても， 0 S 内処理の高速化の話である.たしかに，リ 
アルタイム 0 S では重要かもしれない.しかし，これ 
がアプリケーシヨンプログラムの性能向上に直結する 
とは考えにくい. 

また，これらの命令が出現する頻度はほかの命令に 
比べると非常に低いものであろう.たとえそうでない 
としても，さらにプロセッサの RISC 化が進んで命令 
実行が1クロック処理になり， スーパー スカラなどが 
導入されると性能差はなくなってくると思われる （3 
倍程度の性能にはなる？）. 


• 単純命令を高速に実行 

CISC 命令の高速化の過程で生まれてきた考え方の 
一つは，使用頻度の高い命令を高速に実行することで 
ある.性能にクリティカルな命令を高速に実行するた 
めにワイヤードロジック化したり，専用のハードウエ 
アを導入することが考えられた.しかし，複数の処理 
を1度に実行する命令を高速に実現するためには大規 
模な専用のハードウエアが必要になり，チップ面積も 
大きくなってしまう. 

この状況に新たな道を見出したのが RISC の研究で 
ある.統計をとると，単純な命令ほど使用頻度が高く， 
かつ性能に効いてくる.単純な命令を高速化するため 
には大規模なハードウエアは不要であり，また少し単 
純なハードウエアが全体の性能に効くのである.そし 
て単純な構造のため動作周波数も上げやすい. 

4誕生初期の FMSC 

• □ー ド/ストアアーキテクチャと単純なアドレツシ 

ングモード 

初期の RISC として有名なものは IBM 801， バーク 
レー RISC I , スタンフォード MIPS である.これらの 
命令セットの特徴を以下に説明する.しかし，その前 
に，いわゆる CISC とその命令の特徴を表5に示して 
おく.一見すると， RISC の命令数は「縮小命令セッ 
ト コンピュータ」 の名のとおり， CISC の命令数より 
もかなり少ない.しかし，これは， CISC では同じ種 
類の命令であっても処理する データ サイズによって異 
なる命令とみなされるためである.そのため命令数が 
多く見える. 

一方 RISC では，ロード/ストア以外は，レジスタ 
間で演算が行われるため，演算に関してデータサイズ 
という概念がない.後述の命令セットの具体例を見る 
と， CISC と RISC の命令数(種類）には大差がないこ 
とがわかる. RISC を RISC たらしめている特徴は， 


表5 

CISC と RISC 
の命令セット 
の比較 



CISC 

RISC 

IBM370 

VAX 11/780 

V60 

IBM801 

RISC I 

MIPS 

発表時期 

1973 

1978 

1986 

1980 

1981 

1983 

命令数 

208 

303 

273 

120 

23 

55 

マイク ロコー ド量 

54K 

61IC 

23K? 

0 

0 

0 

命令長（バイト） 

2〜6 

2 — 57 

1 〜 22 

4 

4 

4 

演算対象 

reg-reg 

reg-reg 

reg-reg 

reg-reg 

reg-reg 

reg-reg 

reg-mem 

reg-mem 

reg-mem 

mem-mem 

mem-mem 

mem-mem 
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ロー ド/ストアアーキテクチャと単純なアドレッシン 
グモードであるといえよう（表 6). 

• パーシャル(部分）レジスタライト 

CISC から RISC への移行の間に，多くの ユーザー 
が忘れてしまった特徴にパーシャルレジスタライトが 
ある.これは，たとえばレジスタが32ビット長の場 
合，8ビットまたは16ビットの演算に対して，それぞ 
れのビット長に対応する部分だけしか変更されないと 
いうものである.つまり，8ビット演算なら，レジス 
夕の上位のビット31〜8は変更されない. 

これは x 86 の HI レジスタ， L 0 レジスタへの独立ア 
クセスあたりにルーツがあるように思える. x 86 と同 
程度に古いアーキテクチャである MC 68000も，同様 
の特徴を有していた. 

このパーシャルレジスタライトの概念をくつがえし 
たのが RISC アーキテクチャである.演算自体にデー 
夕長というものがなく，必ずレジスタ全体が変更され 
る.データ長という概念をもっているのはロード/ス 
トア命令のみである. 

ロード命令に関しては，レジスタ長にゼロ拡張/符 
号拡張されて格納される.つまりレジスタ全体が変更 
される.ストア命令に関しては，メモリに対して部分 
ライトされる.これは CISC と同じである. 

現在の MPU では x 86 以外にはパーシャルレジスタ 
ライトの特徴は見受けられない. x 86 でさえ，パイブ 
ラインがストールするので，パーシャルレジスタライ 
卜の使用は推奨されていない. 

• 条件フラグと条件分岐 

CISC のユーザーが RISC のアーキテクチャを最初 
に見て奇異に思うのは，条件フラグが存在しないとい 
うことだろう. CISC では，ほとんどすべての命令で 
条件フラグが変化する.そして，条件分岐は最終的な 
条件フラグを參照して分岐するか否かを決定する. 

一方 RISC には，原則として条件フラグがない.条 
件分岐はレジスタの値が「0であるか丄「正であるか」， 
「負であるか」，あるいは二つのレジスタの値が「等し 
いか」，「等しくないか」という簡単なテストで，分岐 
するか否かを決定する. 

RISC で条件フラグをなくした理由は，「フラグハ 
ザード」というパイプラインハザードをなくしてパイ 
プライン処理をスムーズに行うためであろう.フラグ 
ハザードとは，条件フラグが確定するまで条件分岐命 
令の分岐先フェッチができずに，パイプラインが停止 
する状況を指す. 


章命令セツトアーキテクチャの変遷 


表6 RISC の特徴 
•命令の1サイクル実行 

• メモリインターフエースは単純なロー ド/ストアのみ 

• レジスタ間での演算 

• 単純な形式の固定長命令 

• 単純なアドレッシングモード 

• 多数の汎用レジスタまたはレジスタウィンドウ 

♦遅延分岐 

•キャッシュ 

_• 高級言語コンパイラへの依存 


CISC において，条件分岐が参照する条件フラグは， 
原則的に条件分岐命令の直前の命令で確定する.その 
命令が加減算のように1クロックで実行できるものな 
ら，それほど害はない.しかし，乗除算命令のように 
演算に数クロックを要する場合は，その分だけパイプ 
ラインがストールする.また，条件分岐命令の前方に 
ある命令列は，条件フラグの値が変わってしまうので， 
気楽に並び替えることはできない. 

RISC において，命令の並び替えは，レジスタの依 
存性をなくすために日常茶飯事である.この目的のた 
めに条件フラグは邪魔になる.単にレジスタの値を參 
照するだけであれば，レジスタの値はフォワーデイン 
グされることもあり，レジスタの値が確定するまでの 
間のストールを最小限に抑えることができる.もし， 
RISC で条件フラグを採用するとすれば，その値を予 
測しフォワーデイングすることが必要になり，ハード 
ウェア量の増加を招く.このため， RISC では条件フ 
ラグを用いないことが多い. 

• バークレー RISC I/RISC n 

カリフォル ニア 大学 バーク レー校の RISC の研究 
は，高級言語コンパイラが複雑な命令を有効に使えな 
いことに着目することから始まった.プログラム実行 
時の命令の出現頻度，アドレッシングモード，変数の 
使われ方などの統計を採って，新しい命令セット設計 
の指針とした.この研究結果は，同大学の Patterson 
と Ditzel による初めての RISC に関する論文 『The 
Case ior the Reduced Instruction Set Computer 』 と 
して 1980 年に発表された. 

この論文は，シングルチップコンピュータにとって 
最適なアーキテクチャは RISC であると主張し，次の 
ような利点があると指摘した. 

► チップサイズの縮小 

単純なプロセッサなら，少ないトランジスタ数で設 
計できる.このため CISC に比べて相対的に多くの機 
能を集積できる.さらに空いた面積を使って，キヤッ 
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表 7 RISCI の命令セット 表8 MIPS の ユーザー レベルの命令セツト 


整数算術命令 

ADD 

加算 

SUB 

減算 

SUBR 

減算（逆方向） 

IC 

バイト挿入 

XC 

バイト抽出 

RLC 

レジスタ対のローテート 

ROL 

左ローテート 

S 

シフト 

MEMSETUP 

乘算準備 

MSTEP 

乗算の 1 ステップ （ 2 ビット単位） 

UMEND 

符号なし乗算終了 

DSTEP 

除算の 1 ステップ 

SET 

条件のテスト結果をセット 

論理演算命令 

AND 

論理積 

OR 

論理和 

XOR 

排他的論理和 

ロー ド/ストァ命令 

LD 

ロード 

ST 

ストア 

MOV 

即値またはレジスタの転送 

フロー 制御命令 

BRA 

分岐 

JMP 

ジャンプ 

TRAP 

トラップ 


整数算術命令 

ADD 

加算 

SUB 

減算 

SUBI 

減算（逆方向） 

S 

シフ ト 

論理演算命令 

AND 

論理積 

OR 

論理和 

XOR 

排他的論理和 

ロー ド/ストァ命令 

LDR 

ロード 

LDX 

インデックス付きロード 

STR 

ストア 

STX 

インデックス付きストア 

フロー 制御命令 

JMPX 

条件ジャンプ（インデックス付き） 

JMPR 

条件ジャンプ 

CALLX 

条件コール（インデックス付き） 

CALL 

条件コール 

RET 

条件リターン 

RET I 

割り込みからの復帰 

CALLI 

割り込みハンドラをコール 

特殊命令 

LDHI 

レジスタの上位に値を設定 

GETLPC 

PC を得る 

GETPSW 

PSW を得る 

PUTPSW 

PSW を変更する 


シユや MMU ， FPU などを1チップに内蔵できる. 

► 開発期間の短縮 

単純なプロセッサは，設計にかける労力やコストが 
少なくて済む. 

^高性能化 

単純な論理ゆえ，高い動作周波数で実行できる. 
CISC と比べると同じ動作周波数でも IPC (1 クロック 
で実行する平均命令数)が高いので相対的に高性能で 
ある. 

この論文の理論をバークレー校の大学院生が実践し 
たのが， Rise I と Risen である. Risen の命令セ 
ットを表7に示す.これらは当時の CISC よりも単純 
で，設計の労力も少なかったが， CISC に匹敵する性 
能を発揮していた. 

かくしてバークレー RISC は，後の ARM や SPARC 
アーキテクチャの基礎となるのである.また RISC と 
いう言葉は，バークレー校によって初めて使用された. 

• スタンフオード MIPS 

バークレー RISC と同時期，スタンフォード大学で 
も Hennessy を中心に RISC の研究が行われていた. 


それが MIPS である. MIPS ではハードウエアを簡単 
にするために，メモリアクセスはワードアクセスのみ 
とし，バイト単位の操作が必要な場合は専用命令を使 
ってレジスタ上で処理するとした.また，汎用レジス 
夕は 16 本だった. 

MIPS は 2 レベルの命令セットを もつ.一つは ユー 
ザーレべルの命令で，これはより通常 （ CISC) に近い 
抽象的な命令である（表 8). この命令セットではレジ 
スタの依存関係を考慮する必要はない.もう 一つは マ 
シンレベルの命令で， ALU ピース，ロード/ストア 
ピース，制御フロー ピース，特殊命令(手続き呼び出 
し）といった部分的な命令コードからなり，リオーガ 
ナイザはこれらのピースを組み合わせて実行可能な命 
令を生成する.このとき，レジスタの依存関係が考慮 
され，インターロックしなくて済むように命令の入れ 
替えを行う. 

最初の MIPS プロセッサは実用的といえるものでは 
なかった.しかし，スタンフォード大学の研究者たち 
は，その研究を推し進め， 2 K バイトの内蔵命令キャ 
ッシュと 256K バイトの外付けユニファイドキヤッシ 
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ユインターフェース，32本の汎用レジスタ，乗除算 
用の特殊レジスタ，ゼロレジスタ，5段パイプライン 
を特徴とする， MIPS - X というプロセッサを設計した. 

• 乗除算命令の処理 

MIPS では，ほとんどすべての命令を1クロックで 
処理することを目標としている.しかし当然例外もあ 
る.浮動小数点演算と一部のシステム制御命令を除け 
ば，乗除算命令がそれにあたる.乘除算命令は，一般 
には，1クロックで処理できない.これを通常のパイ 
プラインに組み込むと，パイプラインが乱れて性能低 
下につながる. 

これを回避するため， MIPS では乗除算を通常のパ 
イプラインとは切り離し，ほかの演算と並列に処理す 
るようになっている.このため，乗除算の出力（デス 
ティネーシヨンオペランド）として汎用レジスタとは 
別の専用レジスタを用意している.こうすることで汎 
用レジスタとの依存性を解消する.その専用レジスタ 
が'， HI レジスタと L 0 レジスタである. 

32ビット x 32ビットの乗算では積は64ビットであ 
り，上位32ビットが HI レジスタに，下位32ビットが 
L 〇レジスタに格納される.一方，32ビット+32ビッ 
卜の除算では32ビットの商が L 0 レジスタに，32ビ 
ットの剰余が HI レジスタに格納される.プログラム 
では，乗除算命令の後，数命令後に（乗除算の計算が 
終了したのを待って）， HI レジスタまたは L 0 レジス 
夕から結果を汎用レジスタに転送することになる.こ 
うすることにより，パイプライン処理に乱れを生じさ 
せない. 

• 非整列データ転送命令 

MIPS 命令セットには非常に特徴的な命令がある. 
それが 非整列データ転送 命令である.これは，メモリ 
内の非整列ワード (misaligned words ) データを処理す 
る. CISC では普通にサポートされている機能である 
が，たいていの RISC では非整列なアドレスに対する 
ワードアクセスは例外事象としてトラップを発生す 
る.もちろん，バイト単位でデータを処理すれば，ア 
ドレスが整列されていようがいまいが関係ない.しか 
し，複数のバイトをひとまとめに転送したほうが処理 
速度が上がる. 

MIPS は RISC でありながら，ワードに整列されて 
いないアドレスに対するロー ド/ストアをサポートす 
る.これは MIPS 社の特許であり，かつて互換メーカ 
一の Lexra 社と訴訟になっていた（現在は和解）のは， 
この機能の無断使用に関してである.具体的には，次 


11章命令セツトアーキテクチャの変遷 


の8命令が用意されている. 

(1) LWL(Load Word Left ) 

ワード内の有効データをレジスタに左詰めする. 
ロードしたデータでレジスタを部分的に変更する. 

(2) LWR (Load Word Right ) 

ワード内の有効データをレジスタに右詰めする. 
ロードしたデータでレジスタを部分的に変更する. 

(3) SWL (Store Word Left ) 

レジスタ内に左詰めされたデータをワード内の有効 
領域にストアする. 

(4) swr (Store Word Right ) 

レジスタ内に右詰めされたデータをワード内の有効 
領域にストアする. 

(5) LDL (Load Double Word Left ) 

ダブルワード内の有効データをレジスタに左詰めす 
る.ロー ドしたデータでレジスタを部分的に変更する. 
⑹ LDR(Load DoubleWord Right ) 

ダブルワード内の有効データをレジスタに右詰めす 
る.ロー ドしたデータでレジスタを部分的に変更する. 
⑺ SDL (Store DoubleWord Left ) 

レジスタ内に左詰めされたデータをダブルワード内 
の有効領域にストアする. 

⑻ SDR (Store DoubleWord Right ) 

レジスタ内に右詰めされたデータをダブルワード内 
の有効領域にストアする. 

これらの命令を利用すれば，たとえば， R 5( 転送元 
アドレス）から R 4( 転送先アドレス）へのデータ転送を 
ワード単位で行うためには， 

loop ： /* 終了条件は省略 V 
lwr r 8,0( r 5) 
lwl r 8 ,3 ( r 5) 
addiu r 5, r 5,4 
swr r 8,0( r 4) 
swl r 8,3( r 4) 
addiu r 4, r 4,4 
b loop 

のように記述できる（リトルエンデイアンの場合）. 
R 4 と R 5 の値がワードに整列されている必要はない. 

# ARM 

ARM はバークレー RISC から，ロード/ストアアー 
キテクチヤ，32ビット固定長の命令，3アドレス形式 
など，多くの特徴を採用した.しかし次の特徴は採用 
しなかった. 
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表 9 ARM の命令セット 


データ処理命令 

ADD 

加算 

ADC 

キヤリ付き加算 

SUB 

減算 

SBC 

キヤリ付き減算 

RSB 

減算（逆方向） 

RSC 

キヤリ付き減算（逆方向） 

AND 

論理積 

〇 RR 

論理和 

EOR 

排他的論理和 

BIC 

ビットクリア 

MOV 

転送 

MVN 

ビット反転して転送 

CMP 

比較 

CMN 

否定して比較 

TST 

ビットテスト 

TEQ 

一致 テスト 

MUL 

乗算 

MLA 

積和 

データ転送命令 

LDR 

ロード 

stR 

ストア 

LDMIA 

多重レジスタロー ド 

LDMIB 

多重レジスタロー ド 

LDMEA 

多重レジスタロード 

LDMED 

多重レジスタロー ド 

LDMDA 

多重レジスタロー ド 

LDMDB 

多重レジスタロー ド 

LDMFA 

多重レジスタロー ド 

LDMFD 

多重レジスタロー ド 

STMIA 

多重レジスタストア 

STMIB 

多重レジスタストア 

STMEA 

多重レジスタストア 

STMED 

多重レジスタストア 

STMDA 

多重レジスタストア 

STMDB 

多重レジスタストア 

STMFA 

多重レジスタストア 

STMFD 

多重レジスタストア 

フロー制御命令 

Bcc 

条件分岐 

BL 

分岐とリンク（サブルーチンコール） 

SWI 

ソフトウェア割り込み 


► レジスタウインドウ 


とデータを格納するメモリが分離されている必要があ 
り， ARM が対象とするアプリケーションには高価す 
ぎるため. 

ARM は命令セットの使いやすさよりも，ハードウ 
エアでの実装を簡単に行えることを目標としている. 
この意味で， ARM の命令セットは， RISC の指針を 
受け入れながらも，保守的 (CISC 的)であるといえる. 
これは単純なハードウエア構成でありながら命令の 
コード効率を引き上げようとしたためである.表9に 
ARM ( ARM 2 相当）の命令セットを示す. 

ARM 命令の特徴は，すべての命令で条件コードを 
設定できること，第2オペランドをシフトして演算で 
きること，演算を条件実行できることなどである.こ 
れらの操作をうまく組み合わせれば最小限の命令数で 
目的の処理を達成することができる.しかし，条件コ 
ードがあるため，レジスタの依存性だけに注目して命 
令を並び替えると動作が異なる場合もあり，最適化コ 
ンパイラ泣かせである. 


5 過渡期の RISC 


1989 年当時， RISC という触れ込みで市場に出てい 
たアーキテクチャの代表を挙げれば， i 860 ( Intel ), 
88000 ( Motorola ) , SPARC (Sun Microsystems ) であ 
ろう.これらは表 6 に示す RISC の特徴を満たしてい 
た.これらの特徴に加え， i 860 はグラフィックとべク 
夕処理の命令を， 88000 はビットフィールド命令を， 
SPARC はタグ付きデータ命令という CISC 系の命令 
を有していた.このあたりに過渡期のアーキテクチャ 
という性質を垣間見ることができる. 

• i860 

i 860 は， x 86 とは異なる新しいアーキテクチャを提 
供する目的で開発された .[386 + 80387 の性能を上回 
る高性能を実現することができ，従来のスーパーコン 
ピュータやミニコンが提供していた科学技術計算や各 
種のシミュレーションを，より小型で安価なシステム 
で実現できた. 


レジスタの占める面積が多いためコスト面で不採用 i 860 は，現在でも DSP の代用品や RAID 用のプロセ 

になったが，その概念は割り込み時のシャドウレジス ツサとして生き残っている. 

夕に受け継がれている. • 88000 


►遅延分岐 88000というのは， MPU である MC 88100とキャッ 

例外処理の 実装を 複雑にするため. シュ，そして MMU を内蔵する MC 88200というチッ 

►全命令の1クロック実行 プの総称である.コードユニット，データユニット， 

ロード/ストアを1クロックで 実行す るには， 命令 整数 ユニット ， FPU (加減乗除と変換用の 二つ） の計 
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第 11 章命令セツトアーキテクチャの変遷 


五つのユニットがあり，各自がパイプラインで並行動 
作するという意味でスーパースカラのはしりである. 

MC 88100 は比較結果を反映させる条件コードレジ 
スタをもっていない.比較命令は，ほかの演算命令と 
同じように 3 オペランド命令で，比較結果をデステイ 
ネーシヨンレジスタに格納する.条件分岐命令はこの 
レジスタの値に基づいて分岐する.この構成により， 
比較命令と条件分岐命令間の命令を自由にスケジュー 
リング（入れ替え）できる.条件コードを使用しないこ 
の方式は， MIPS をはじめとする多くの RISC で採用 
されている. 

• SPARC 

SPARC の仕様はオープンアーキテクチャとして， 
SPARC International 社によって管理されている. 
SPARC にはいくつかのバージヨンがあり，最新バー 
ジヨ ンは 9 である.バージ ヨ ン 9 は 64 ビッ トアーキテ 
クチャであるが，（少し前の）典型的な SPARC チップ 
は 32 ビツ トアーキテクチャのバージヨン 7 または 8 の 
仕様に基づいている. 

SPARC の最大の特徴は，レジスタウインドウであ 
る.整数ユニットは 32 ビットの汎用レジスタを 136 個 
もっている.このうち8個はグローバルに參照できる 
が，残りは手続きごとに割り当てられ，引き数の授受 
を高速に行う.これがレジスタウインドウで，一つの 
ウインドウは 24 個のレジスタからなる.内訳は， R24 
〜 R 31 が手続きの呼び出し元とオーバーラップする 
(引き数用）. R 16 〜 R 23 は手続き内でローカルに使用 
できる. R 8 〜 R 15 は手続きが呼び出す手続きとオー 
バーラップする.手続きの最初にレジスタウインドウ 
を切り替えることで，レジスタの値を退避することな 
く，レジスタを自由に使用できる. SPARC における 
手続き呼び出しのシーケンスは次のようになる. 

• R 24 〜 R 31 に引き数をセットする 

• CALL 命令を実行する 

• 呼び出された手続きは SAVE 命令でレジスタウイン 
ドウを切り替える 
• 手続きを実行する 

• RESTORE 命令で元のレジスタウインドウを回復 
する 

• RET 命令 (JMPL 命令の特殊形）で復帰する（実際は 
RET 命令の遅延スロットに RESTORE 命令を置く） 
レジスタウインドウに関しては，多くの利点がある 

ことがわかっている.一つ目は手続き呼び出しごとに 
レジスタの値の退避/回復を行う必要がない点である. 


表10 i 860 の命令セット 


ロー ド/ストァ 

6種 

浮動小数点-整数レジスタ間転送 

2種 

整数算術演算 

4種 

シフト 

4種 

論理演算 

8種 

分岐•コール.トラップ 

13種 

浮動小数点乘算 

6種 

浮動小数点加算 

12種 

デュアルオペレーション 

4種 

長整数加減算 

4種 

グラフィック 

10種 

I/O 

3種 

システム制御 

6種 


二つ目は，高度なレジスタ割り付けを要求しないので 
コンパイラがそれほど複雑にならない点である. 

• 旧 60/88000/ SPARC アーキテクチャの比較 

i860 の命令セットに関しては，筆者の手元に詳細な 
資料がないので概要のみを表10に示す.また， 88000 
と SPARC の命令セットを表11と表12に示す. 

卜特殊命令 

標準的な命令セットに加え， i860 は グラフィック処 
理の命令，整数と浮動小数点演算の並列実行 (VLIW 
の特色）， FPU をサポートする.グラフィック処理に 
は Z バッファ操作， Phong シェーデイング，ピクセル 
間演算がある.これらは陰面消去と 3 D 投影に効果的 
である.しかし，これらの特徴はグラフィック処理以 
外では効果的でない.整数と浮動小数点の並行処理は 
浮動小数点演算が支配的なアプリ ケー シヨン以外では 
効果がないし，専用のプリフィクスが必要なため，当 
時の コンパイラは 並列実行のための専用 コー ドを生成 
しなかった.アセンブラの助けが必要である. 

88000 のビットフィールド命令はビットフイールド 
の中に対してセット/クリア，挿入/抽出をサポートす 
る.ビットフィールド命令は最近の RISC における命 
令拡張では流行になっている.つまり，先祖返り的な 
傾向が見られる. 

SPARC のタグ演算はデータとポインタに異なる夕 
グを付け，データやボインタに関する不正演算を検出 
する.これは， LISP や Smalltalk の実装（動的なエ 
ラーチェック）に非常に有利である. 

► セマフォ 

これらの MPU は，テストアンドセット操作を実現 
する命令をもち，セマフォをサポートする. i860 には 
ロック/アンロックという命令の組がある.この間に 
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表 11MC 88100の命令セット 


整数算術命令 

ADD 

加算 

ADDU 

符号なし加算 

CMP 

比較 

DIV 

除算 

DIVU 

符号なし除算 . 

MUL 

乗算 

SUB 

減算 

SUBU 

符号なし減算 

浮動小数点算術命令 

FADD 

浮動小数点加算 

FCMP 

浮動小数点比較 

FDIV 

浮動小数点除算 

FLDCR 

浮動小数点レジスタからのロード 

FLT 

整数—浮動小数点変換 

FMUL 

浮動小数点乗算 

FSTCR 

浮動小数点レジスタからのストア 

FSUB 

浮動小数点減算 

FXCR 

浮動小数点制御レジスタとの交換 

INT 

浮動小数点 — 整数変換 

NINT 

Nearest 方向の整数変換 

TRUNC 

Zero 方向の整数変換 

論理演算命令 

AND 

論理積 

MASK 

論理マスク即値 

OR 

論理和 

XOR 

排他的論理和 

ビットフィールド操作命令 

CLR 

ビットフイールドのクリア 

EXT 

ビットフイールドの抽出（符号拡張） 

EXTU 

ビットフイールドの抽出（ゼロ拡張） 

FFO 

0であるビットの検索 

FF 1 

1 であるビットの検索 

MAK 

ビットフイールドの生成 

ROT 

レジスタのローテート 

SET 

ビットフイールドのセット 

メモリアクセス命令 

LD 

ロード 

LDA 

アドレスのロード 

LDCR 

制御レジスタからのロード 

ST 

ストァ 

STCR 

制御レジスタへのストア 

XCR 

制御レジスタとの交換 

XMEM 

レジスタとメモリの交換 

フロー制御命令 

BBO 

ビットクリア時に分岐 

BB 1 

ビットセット時に分岐 

BCND 

条件分岐 

BR 

無条件分岐 

BSR 

サブルーチンへの分岐 

JMP 

ジャンプ 

JSR 

サブルーチンへのジャンプ 

RTE 

例外からの復帰 

TBO 

ビットクリア時にトラップ 

TB 1 

ビットセット時にトラップ 

TBND 

境界チエック時のトラップ 

TCND 

条件トラップ 


ある命令は割り込み受け付け不可となり，アトミック 
操作を実現できる. 88000 には XMEM 命令がある•こ 
れはコンペアアンドスワップ操作を実現する.また 
SPARC には 2 種類のセマフォ命令がある.ロー ドス 
トア無符号バイト命令は，不可分にメモリをリードし 
てそこにオール1をライトする. SWAP 命令はオール1 
の代わりに特定のレジスタの値をライトする. 

これらを比較すると， i860 のロック/アンロック機 
構がセマフォの実現に適しているようにみえるが，実 
際にセマフォを実現するとなると複数の命令が必要で 
あり，三つの間で大差はない. 

►乗除算 

これらの MPU の中では， 88000 のみが乗除算命令 
をサボートする. i860 には浮動小数点命令の乗算があ 
り，これで代用することができるが，除算はない. 
SPARC には乗除算のためのステップ命令（部分積な 
どを計算する）がある. i860 と SPARC は，ますます 
乗除算が重要になる当時のアプリケーション状況にお 
いては不利な立場にあった.初期の RISC の多くに乗 
除算命令がなかったことは，半ば常識のようになって 
いる. 

しかし，現在では乗除算命令をサポートしないアー 
キテクチャはまずない.たとえば SPARC は，バージ 
ョン8で整数乗除算命令が定義された. 

このように乗除算命令の有無が比較対象になるとい 
うこと自体が，初期の RISC の特徴をよく表している. 
►分岐 

これらの MPU にはいずれも遅延分岐の概念があ 
り，遅延スロットを利用すると分岐のペナルティの 
60 〜 70% を削減できる.また，遅延スロットを無効 
化することも可能で，これはコードサイズの減少に役 
立つ.また，ハードウェアによる分岐予測をサポート 
する. 

►アドレッシングモード 

これらの MPU で共通なオペランドのアドレッシン 
グモードは，「ベース+オフセット」，「ベース+イン 
デックス」であり，常にゼロを値とするゼロレジスタ 
をもっている.これらを組み合わせると，次の五つの 
アドレッシングモードを実現できる. 

• レジスタ ： Rx 
• レジスタ間接： (Rx) 

• インデックス付きレジスタ間接： （ Rx ， Ry) 

• オフセツト付きレジスタ間接： offset (Rx) 

•即値 
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第11章命令セットアーキテクチャの変遷 


表12 SPARC の命令セット- 


算術•論理•シフト命令 

ロー ド，ストァ命令 

ADD(ADDcc) 

加算（と条件コードの変更） 

LDSB(LDSBA) 

符号付きバイトロード 

ADDX(ADDXcc) 

キヤリー付き加算（と条件コードの 
変更） 

LDUB(LDUBA) 

符号なしバイトロード 

LDSH(LDSHA) 

符号付きハーフヮードロー ド 

SUB(SUBCC) 

減算（と条件コードの変更） 

LDUH(LDUHA) 

符号なしハーフヮードロー ド 

SUBX(SUBXcc) 

キヤリー付き減算（と条件コードの 
変更） 

LD(LDA) 

ワードロ^—ド 

LDD(LDDA) 

ダブルワードロー ド 

TADDcc(TADDccTV) 

下位の 2 ビットをタグとみなして加算 

LDFSR 

FSR レジスタへのロード 

TSUBcc(TSUBccTV) 

下位の 2 ビットをタグとみなして減算 

LDCSR 

コプロセッサ状態レジスタへのロード 

MULScc 

乗算と条件コードの変更 

LDF 

浮動小数点レジスタへのロード 

AND(ANDcc) 

AND (と条件コードの変更） 

LDDF 

浮動小数点レジスタへの 
ダブルワードロー ド 

ANDN(ANDNcc) 

NAND (と条件コードの変更） 

OR(ORcc) 

OR (と条件コードの変更） 

LDC 

コプロセッサレジスタへのロード 

ORN(ORNcc) 

NOR (と条件コードの変更） 

LDDC 

コプロセッサレジスタへの 
ダブルワードロー ド 

XOR(XORcc) 

排他的 OR (と条件コードの変更） 

XNOR(XNORcc) 

排他的 NOR (と条件コードの変更） 

STSB(STSBA) 

バイトストア 

SLL 

論理左シフト 

STSH(STSHA) 

ハーフワ^ー ドストア 

SRL 

論理右シフト 

ST(STA) 

ワードロー ド 

SRA 

算術右シフト 

STD(STDA) 

ダブルワードストア 

SETHI 

r レジスタの上位 22 ビットをセット 

STFSR 

FSR レジスタからストア 

SAVE 

呼び出し側レジスタウインドウの退避 

STCSR 

コプロセッサ状態レジスタからストア 

RESTORE 

呼び出し側レジスタウインドウの回復 

STF 

浮動小数点レジスタからストア 

特殊レジスタ操作命令 

STDF 

浮動小数点レジスタから 
ダブルワードストア 

RDY 

Y レジスタのリード 

RDPSR 

PSR レジスタのリード 

STC 

コプロセッサレジスタからストア 

RDWIM 

WIM レジスタのリード 

STDC 

コプロセッサレジスタから 
ダブルワードストア 

RDTBR 

TBR レジスタのリード 

WRY 

Y レジスタのリード 

STDFQ 

FQ レジスタからストア 

WRPSR 

PSR レジスタのライト 

STDCQ 

コプロセッサキューレジスタから 
ストア 

WRWIM 

WIM レジスタのフイト 

LDSTUB(LDSTUBA) 

アトミックなロードとストア 

WRTBR 

TBR レジスタのフイト 

SWAP 

レジスタのメモリとのスワップ 

UNIMP 

末疋:義命令 

分岐命令 

IFLUSH 

命令キャッシュの無効 化 

Bicc 

整数条件コードによる分岐 

これらは CISC でもっとも頻繁に出現するァドレッシ 

ングモードでもある. 

88000 では，インデックスをデータサイズでスケー 

リングすることができる.しかし，そのような使用法 

は人工知能言語や科学技術計算では有用であるが，通 

常は使用されない. i 860 ではレジスタファイルのリー 

Fbf cc 

浮動小数点条件コードによる分岐 

Cbcc 

コプロセッサ条件コードによる分岐 

CALL 

手続きの呼び出し 

JMPL 

現在のアドレスをレジスタに 
退避してジャンプ 

RETT 

トラップからの復帰 

Ticc 

整数条件コードによるトラップ 

浮動小数点.コプロセッサ命令 

Fpop 

浮動小数点命令群 

Cpop 

コプロセッサ命令群 


ドポート数を節約するためにインデックスアドレッシ 


ングがない.しかし， CISC マシンでもインデックス 
アドレッシングの出現頻度は低いので問題ない. 

インデックスアドレッシングは，行列計算を効率的 
に行える. 3 次元グラフィック用途にはあったほうが 
望ましい. 

► レジスタ 

これらの MPU は CISC よりも多くのレジスタを提 
供するが，実際に何本使用できるかはアーキテクチャ 


によって異なる.この意味では 88000 のレジスタセッ 
卜は立場が弱い.整数と浮動小数点に共通な 32 ビッ 
トレジスタが 32 本あるだけである. i 860 と SPARC は 
整数と浮動小数点用にそれぞれ 32 本の 32 ビットレジ 
スタを提供する. 

レジスタの本数が多い i 860 と SPARC のほうが実際 
に 88000 よりよい性能を達成することがわかってい 
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る. SPARC はこれに加えてレジスタウインドウもサ 
ポートする. 

6 現在の RISC 


RISC にも20年以上の歴史がある.その中で今も 
現役として使われているアーキテクチャは， ARM , 
MIPS , SPARC , PowerPC , PA - RISC , Alpha くらい 
であろうか.組み込み向けの MPU も実際には RISC 
アーキテクチャを採用しており，その中で比較的有名 
なものは， SH と V 850 であろうか. 

しかし，それらの命令セットをすべて説明すること 
はあえてしない.どれも バークレーとスタンフォード 
の RISC を基礎とした発展形にすぎないからである. 
ここでは，これまでまだ詳しく説明していない 
PowerPC , PA - RISC , Alpha のアーキテクチャに関 
して簡単に説明しておこう. 

• PowerPC 

PowerPC は発表当時， RISC の中でも豊富な命令を 
備えた 「Rich RISC 」 と呼ばれ，（今ではありふれて 
いるが)積和命令やレジスタ値に依存した分岐命令， 
OS 専用命令が注目を浴びた.後々高性能化の妨げに 
なるので遅延分岐は採用しないといったのは有名で 
ある. 

しかも PowerPC のアーキテクチャは最初から完成 
されており，これまでその命令セットには大きな変更 
はない. Power や PowerPC の進化は，命令セットを 
いかに高速化するかというマイクロアーキテクチャの 
実装方式の進化である. 

最初の PowerPC である PowerPC 601 は，次のよう 
な高速化技術を採用している. 

•スーパースカラ 
•命令プリフェッチキュー 
•ァウトオブオーダー命令発行 
• レジスタリネーミング 

• ロー ド/ストアバツフア 

これらは大型計算機の技術をいち早く採り入れたもの 
といえる. 

• PA-RISC 

PA-RISC (Precision Architecture RISC ) とは HP 社 
の EWS である HP 9000シリーズのアーキテクチャで 
あり， EWS の分野ではかなりの実績をもつ.それで 
いて，ビット操作命令，ビットフィールド命令，独自 
機能をサポートする SFU(Special Function Unit ) を有 


し，組み込み制御分野にも適している. 

PA - RISC の命令長は32ビット固定長で，140種の 
命令を提供する.その内訳は，メモリ参照命令，分岐 
命令，算術論理演算命令，システム制御命令，コプロ 
セッサ命令である.命令の特徴は複合機能を有する分 
岐命令で，加算と条件分岐，比較と条件分岐，転送と 
条件分岐の機能を1命令で実現し，1クロックで実行 
する.そのほかにシフトと加算を1クロックで実行す 
る.さらに，演算と分岐命令には次の命令を無効化す 
る機能がある.これにより，遅延スロットを最適化し 
たコードサイズの圧縮やループプログラムの高速化を 
行うことができる. 

たとえば， 

ADD r 2 , r 3 , r 4 
Bcc Next 
命令 1 
Next : 

命令 2 

という命令列は， 

ADD , = r 2, r 3, r 4 

叩下] 1 

命令2 

と1命令少ない命令列で実現できる.また分岐命令は， 
前方 ( forward ) 分岐の場合は分岐が成立すると遅延ス 
ロットが無効化され，後方 ( backward ) 分岐は分岐が 
不成立のときに遅延スロットが無効化される.この機 
能を利用すると， 

LOOP : 

ADD rl , r 2, r 3 
ADD r 3, r 4, r 5 
CMP ,<> r 6, r 5 ,LOOP 
NOP 

というループを表す命令列は， 

LOOP : 

ADD rl , r 2, r 3 

ADD r 3, r 4, r 5 

CMP,<>,n r 5, r 5 7 LOOP +4 

ADD rl , r 2, r 3 

という命令列に置き換えられる.つまり，遅延 スロッ 
卜に分岐先の命令をもってくることができる.これに 
より，4 クロック かかっていた1回のループを3 ク 
ロックに 縮小することができる.これは MIPS の 
Branch Likely と同じ考え方である. 

HP 自体は EWS 用の MPU を Intel の IA -64 に移行す 
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ることを表明しているので， PA - RISC が幻のアーキ 
テクチヤのまま終わってしまう可能性は大きい.とは 
いえ， IA -64 の開発遅れに危機感をもっているのは 
HP も同様らしい. 2000年に発表されたロードマップ 
では，2001年に 800 MHz 動作の PA - 8700，2002年に 
1 GHz 動作の PA - 8800，そして将来的には 1.2 GHz 動作 
の PA - 8900の開発を行うことが明示されている. PA - 
8900 以降は完全に IA -64 に移行する予定であるが，こ 
れは Itanium , Mckinley に続く第3世代である 
Deerfield や Madison のあとということになる. 

HP は PA - RISC から IA -64 への移行は非常に簡単だ 


■ ■ ■. - .. 

11章命令セツトアーキテクチャの変遷 


と言っている.なぜなら， IA -64 の命令セットのほと 
んどは PA - RISC のものであり，バイナリレベルの互 
換性があるためという.これに加えて，データの互換 
性（エンディアンが同じということ ？） もあることが特 
筆すべきこととして挙げている. 

• Alpha 

Alpha は当初から64ビットアーキテクチャを提供 
し，64ビットのロード/ストア命令を基本として命令 
セットが構築されている. 8ビット/16ビットのロー 
ド/ストア命令はなく，必要な場合は専用命令でバイ 
卜の挿入/袖出を行う （2 代目の21164ではこの制限は 


• CISC と RISC( 


現在における CISC 命令セツトの意義 


;のプログラムサイズ 

RISC 命令セットは， MPU の性能を追及してきた成果 
である.現在ではほとんどの MPU が RISC になってい 
る.それでは， CISC 的な命令セットに意義がなくなっ 
たのかというと，そうでもない.性能よりもプログラム 
サイズのほうが重要視される ROM ベースの組み込み制 
御分野では，いまだに CISC 的な命令セットが重宝され 
ている.このような分野では限られた容量の ROM にど 
れだけ多くの機能 （ =命令）を詰め込むことができるか否 
かによって価値が決まる.つまり，プログラムサイズ至 
上主義である. 

現在では，組み込み制御分野も C などの高級言語を使 
ってプログラムが記述される.そしてそこで現われる命 
令機能はかなり定型的である.たとえば，スタックボイ 
ンタを基準としたメモリ（変数)参照，スタックフレーム 
の生成と破棄，そのスタックフレームへのレジスタの一 
括した退避と回復，データ型に応じた符号拡張やゼロ拡 
張などである.これらを複数の基本命令で，パイプライ 
ン的に，高速に実行するのが RISC であり， 1 命令で比 
較的低速に実行するのが CISC である.明らかに CISC 
のほうがプログラムサイズは小さい.また， RISC の分 
岐遅延スロットも，場合によっては命令数を増加させる 
傾向にあるので，プログラムサイズの観点からはなくて 
もかまわない. 

• ARM の Thumb 命令セット 

ARM の命令セットは，このような RISC と CISC の命 
令セットの中間点をうまくおさえているところに圧倒的 
な人気の秘密があるのかもしれない.とくに ARM の命 
令長を 16 ビット化した Thumb 命令セットは， CISC 化 
の傾向が強い. ARM 社は， Thumb コードでは 40% の 
性能低下だが， 70% のプログラムサイズに圧縮できる 
としている.この一見ネガティブな説明がまかり通って 
いるということは，約半分の性能になってもプログラム 


サイズが重要になる場面があることの証明であろう. 

• MIPS 16 命令セット 

ARM と同じように組み込み制御分野に注目している 
MIPS も， MIPS16 命令セットを定義している.そして， 
さらにコードサイズを縮小するために MIPS16e 命令セ 
ットを定義している.これは MIPS16 のスーパーセット 
で，符号拡張/ゼロ拡張命令，遅延スロットのないジャ 
ンプ命令，レジスタの一括退避/回復命令， MIPS32 命 
令の直接実行機能を追加している.ますます CISC 色が 
強くなっている. MIPS ライセンシである東芝は 
MIPS16e を拡張した MIPS16e+ を発表し，さらなる 
コードサイズの削減を目指している.そのおもな拡張機 
能は，単ービット操作，ビットフィールド命令，積和命 
令，飽和命令である. 

籲 ARM の Thumb_2 

2003 年 6 月， ARM 社は Thumb 命令セットの改良版 
である Thumb-2 を発表した.これは，従来 16 ビット長 
のみだった Thumb 命令セットに 32 ビット長の命令を混 
合したものである. ARM 本来の 32 ビット命令と 
Thumb の 16 ビット命令をモード切り替えする従来方式 
と異なり，それぞれのビット長の命令の混在を可能とす 
る新しい命令アーキテクチャらしい.ところが，従来の 
開発. ツールの 使用が可能で，命令 コー ド自体は従来の 
32 ビット命令や Thumb と互換性があると説明されてい 
る.これにより， 16 ビット命令のみの場合より 25% の 
性能向上になるという.プログラムサイズは 32 ビット 
命令の 74% になる. 

ARM 社によれば，性能が 25% 上がった分，動作周波 
数を下げられるので，低消費電力化が実現できるとして 
いる.ほとんど詭弁 （?!） のような説明ではある.しかし 
16 ビット長と 32 ビット長の命令を混在させることで， 
Thumb-2 は MIPS16 により近くなったといえる. 
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なくなった）.命令長は 32 ビット固定で， 140 種の命 
令がある. 

Alpha AXP の特徴は PAL (Privileged Architecture 
Library ) コードにある. PAL コードとは，割り込み 
例外の処理と復帰，コンテキストスイッチ，メモリ管 
理，エラー処理など，従来は MPU のハードウェアで 
処理していた機能を MPU のハードウェアを直接操作 
するサブルーチンで実現する. OS やハードウェア構 
成の違いごとに PAL コードを用意することで，基本 
となるアーキテクチャが異なるシステムにも共通に 
Alpha AXP アーキテクチャの MPU を搭載できるとい 
われている. PAL コードは， MPU の実装別に定義さ 
れる PAL 命令と通常命令で構成される.たとえば， 
1992 年に発表された最初の Alpha 21064 は，次の 3 種 5 
命令の PAL 命令をサポートする. 

•内部レジスタのリード/ライト命令 

• MMU を介さないロー ド/ストア命令 

• PAL コードからの復帰命令 

PAL コードによってアプリケーションプログラム 
の実行と OS の実行が分離されているため，ハードウ 
ェアはアプリケーションプログラムの命令セットを高 
速実行できるように最適化されている. 

7 SIMD 命令/暗号化処理命令 

• マルチメディア対応命令 

SIMD (Single Instruction Multiple Data ) とは，一 
つの命令で複数のデータを処理することを意味する， 
演算方式を表す言葉である.各プロセッサメーカーは 
命令セットに独自性を出すために，マルチメディア対 
応や特定分野対応の命令を追加するのに躍起である. 

Intel は i 386 アーキテクチャに MMX (MultiMedia 
eXtention ) テクノロジーという命令セットを追加し 
た.さらに Pentium HI からは SSE(Streaming SIMD 
Extension ) を， Pentium 4 では SSE 2 という命令群を 
追加している. AMD も同様に， 3 DNow ! という命令 
群を追加している. 

そして MIPS では， MDMX(MIPS Digital Media 
extension :マッドマックスと発音する）というマル 
チメディア系の命令セットを追加し，そのサブセット 
が R 5432 で実装された.また，単精度浮動小数点を並 
列実行するための MIPS -3 D という命令セットも発表 
され， R 20000で実装された. 

PlayStation 2 の EmotionEngine のべクトルユニット 


に実装されているマルチメディア命令群も忘れてはい 
けないだろう.これは東芝の TX 79 コアに継承されて 
いる. 

ARM も 2000 年の Microprocessor Forum で SIMD 
命令の追加 ( v 6 アーキテクチャ）を表明した. 

SPARC は， 64 ビットアーキテクチャのバージョン 
9 でマルチメデイア系の VIS(Visual Instruction Set ) 
を追加した.それは UltraSPARC で実現されている. 

整数系ではなく浮動小数点系の強化をしたものに 
は， PowerPC の AltiVec もある. 

SH -4 は最初から浮動小数点の SIMD 命令を命令セ 
ットとして提供している. SH -5 では整数系の SIMD 
命令も採用されるようだ. 2003 年 6 月の Embedded 
Processor Forum では， SH -5 の SIMD 命令の紹介が 
行われた. 8 ウェイの SIMD 命令は， MPEG -4 のエン 
コード時などに威力を発揮するという.このように， 
SIMD 命令の採用は花盛りである. 

ここでは基本をおさえるという意味で， MMX につ 
いて学んでおこう.あらためて見直すと， MMX が提 
供する機能は，はかのプロセッサが採用するマルチメ 
ディア命令の機能とほとんど同じであることがわか 
る.そして最後に， ARM と MIPS の SIMD 命令に関 
して少し言及する. 

•MMX テクノロジ 

MMX の基本的な考え方は， 8 ビットまたは 16 ビッ 
卜の要素を一つの比較的小さなデータにパックして並 
列に処理することである（表 13). 具体的には次のよ 
うな機能を有する. 

► バックされたデータ形式 

MMX では新しいデータ形式を定義する.マルチメ 
ディアアプリケーションで扱うデータの多くは，8ビ 
ットまたは 16 ビットとサイズが小さい.またマルチ 
メディア処理は，多くの隣接するデータ要素を同時に 
扱うことが多い. MMX では，これら二つの特色を 
SIMD 処理で実現する.いくつのデータ要素を並行処 
理すればよいかはアプリケーションの特性に依存する 
ので， 1 種類には決定できない.ただ， Intel のプロセ 
ッサは 64 ビットのデータパスをもっているので， 
MMX のデータ型も 64 ビットと決められた.具体的 
には，図1に示すように 4 種のデータ型がある. 

► 条件付き実行 

条件によって操作を切り分ける場合，分岐命令を使 
用することが考えられる.しかし，分岐予測を誤る場 
合の損失を考慮すると実行速度は遅い.さらに，従来 
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表13 MMX の命令セット 


オペコード 

オプション 

実行クロック 

記述 

PADD[B/W/D] 

PSUB[B/W/D] 

ラップアラウンド 
飽和 

1 

パック化データの加減算を並列に実行 

PCMPEQ[B/W/D] 

PCMPGT[B/W/D] 

一致 
より大 

1 

パック化データの比較を並列に行い，マスクを生成 

PMULLW 

PMULHW 

結果が下位 
結果が上位 

レイテンシ3 
リピート1 

パック化ワードデータの乗算を並列に行い，結果の上 
位または下位を選択 

PMADDWD 

16ビットから 

32ビットへの変換 

レイテンシ3 
リピート1 

パック化ワードデータの乘算を並列に行い，隣接する 

32ビットの結果を加算 

PSRA[W/D] 

PSLL[W/D/Q] 
PSRL[W/D/Q] 

シフト量がレジスタ 
か即値か 

1 

パック化データの算術論理シフトを並列に実行 

PUNPCKL[BW/WD/DQ] 
PUNPCKH[BW/WD/DQ] 


1 

パック化データをインタリーブしながら混合 

PACKSS[WB/DW] 

常に飽和 

1 

パック化データを並列に生成 

PLOGICALS 


1 

ビット単位の論理演算 

MOV[D/Q] 


1 

転送 

EMMS 

実装依存 


FP レジスタのタグを空にする 


63 56 55 48 47 —40 39 _32 31 _24 23 _1615 _ 8フ— 〇 









63 

( a ) パック化バイト (8 ビット X 8) 
48 47 32 31 16 

15 

0 
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( b ) パック化ワード （16 ビット X 4) 
32 31 


0 



63 

( c ) パック化ダブルワード (32 ビット X 2) 

0 



図 1 MMX のデータ型 ( d ) クワドワード (64 ビット XI) 


の手法を適用しようとすると，パックされたデータ型 
をスカラ型（組になってない形式）に変換する必要が 
ある. 

これを解決するのが条件転送(条件に応じて転送す 
るデータを切り分ける）である.しかし，このために 
は三つの独立したオペランド（ソース，デスティネー 
ション，各データ要素に対する条件の組）が必要なの 
で，2オペランドを基本とするインテルアーキテクチ 
ャではつごうが悪い.条件転送(条件代入）にはいろい 
ろな実装方式があるが， MMX ではマスク付きの代入 
を採用する.しかし，これには三つのオペランド（ソー 
ス，デスティネーション，マスク）が必要である. 

そこで， MMX ではマスク生成と代入を2段階に分 
離した.専用の比較命令が各オペランドに対応するビ 
ットマスクを生成する.たとえば比較処理の場合は， 
八つのバイトがパックされたオペランドに対して，八 
つの8ビットのマスクを生成する.そのマスクを論理 


演算と併用することで条件転送を実現できる.図2に， 
四つのワード (32 ビット）要素に対する比較操作を示す. 

► 飽和演算 

マルチメディアで典型的に使用されるオペランドサ 
イズは小さい.たとえば， RGBoc という色の各要素は 
8ビットで表現される. 8ビットあれば256階調の色が 
表示できる.これは人が認識できる解像度を超えてい 
るが，問題点もある. 8ビットでは多くのピクセルの 
色を蓄積していくと， 8ビットで表現できる上限を超 
えてしまうのだ. デフ ォルトの設定では，二つの数値 
の加算結果が上限値を超える場合はラップアラウンド 
する.つまり，結果が8ビットで表現できなくても， 
下位8ビットをそのまま値とする.しかし，メディア 
アプリケーションでは，そのような オーバフローに 対 
する防御策が必要となる.具体的にはラップアラウン 
ドせず，最大値に留まることが望まれることもある. 
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図 2 

ワード型に対するパックトイコール 



アンパック下位ワード混合 


図3 MMX のアンハヘンク命令 



アンパック上位ワード混合 


► 固定小数点演算 

メディアアブリケーションでは，フィルタ処理など 
における重み付け係数を扱うため，小数点処理が必要 
となる.これに対応するため，浮動小数点の SIMD 処 
理を提供することも考えられる.しかし，浮動小数点 
処理はハードウエアの負担が大きいため，実際のメデ 
ィアアプリケーションでは10〜12ビットの精度で，動 
的には4〜6ビットの範囲が表現できれば十分である. 

このような状況を鑑み， MMX では固定小数点演算 
をサボートすることとした.固定小数点演算は加減算 
に関しては整数演算と同一視できるが，乗除算に関し 
ては整数演算を適当にスケーリング(右シフト）しなけ 
ればならない.これらの機能をサポートしているわけ 
である. 

しかし， 3 D 分野でのジオメトリ変換など，単精度 
浮動小数点の演算精度が必要なアプリケーションもあ 
るのも確かである.これらは，後年， SSE や SSE 2 で 
実現される. 

►パックされたデータ型のデータ要素の並び替え 

アプリケーションによっては，パックされたデータ 
内での要素の並び 替え や，二つのパックされたデータ 
のマージが必要である.一般的には二つのパックされ 
たデータをオペランドとし，デスティネーションに任 


意の順序で各バイトを混合することを許す. 

しかし，これでは実装が複雑になる. MMX では， 
アンパック 命令により， パック されたデータの要素の 
並び替えと結合を行うことができる.この命令の動作 
を図3に示す.この命令を使用すれば，ピクセルのパ 
ック型の形式をプレーン型の形式に変換できる. 

► 積和演算 

マルチ メ デイ アや 通信 アプリケー シヨンにおいて， 
もっとも頻繁に出現するのが積和演算である.これは 
行列の乗算やフイルタ操作の基本操作として使用され 
るためだ.積和演算を用いる行列-ベクタ操作の例を 

図4に示す. 

• ARM の SIMD 命令 

ARM は2000年秋の Microprocessor Forum で，既 
存の命令セットに追加される SIMD 命令の概要を発表 
した. Intel の MMX と同じように互換性の維持を第 
一に考え，パイプラインの実行に影響を与えない18 
の命令を定義した.このため，命令機能は，加算，減 
算，選択，乗算，飽和に関するものに限られている. 
そのほかの命令機能は ARM のコプロセッサインター 
フェースを通じて使用できる.これは StrongARM (ま 
たは XScale ) の SIMD 命令の実装と同じである.ただ 
し，互換性はない. 
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v2 * m02+v3* m03 
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L 


- J 1 


Paddd First result Second result 


図 4 行列-ベクタ演算 


SEL16 <Rd>, <Rn>, <Rm> 
Rn Rm 



Rd 


図 5 新しい条件フラグを使う選択演算 


ADDSUB <Rd>. <Rn>. <Rm> 
Rn Rm 



Rd 


図 7 SUBADD 命令 

ARM の SIMD 命令の特徴的なところは，従来の 
ハードウエア資源を利用して命令を拡張したことであ 
る.特殊レジスタの追加も，ベクタ処理をサポートす 
る ALU も追加していない.ただし， SIMD 命令のた 
めに新しい状態フラグを定義する.それが GE [3 : 0] 
で，プログラムステータスレジスタの CPSR [19 : 16] 
にマップされている.図5はこの条件フラグを使う選 
択 ( SEL ) 演算の動作例である. 

SIMD 命令では16 x 16ビットの積和演算をサポー 
卜するのが流行であるが， ARM もその例にもれない. 
図6は ARM の積和演算を示す. SMLA { X}D 命令は二 
つのレジスタの上位16ビットと下位16ビットどうし 
をたすきがけに乗算し，その積を加算する.そしてそ 
の結果の上位または下位16ビットをもう一つのレジ 
スタの上位または下位16ビットと加算する（交換処 


SMLALD <Rd>, <Rm>, <Rs>, <Rn> 
Rm Rs 



図 6 積和演算の例 


理）.これは，フイルタ処理や複素数の積の計算に有 
効である. 

また，有用な SIMD 命令として加算-減算 ( ADDSUB )， 
減算-加算 ( SUBADD ) 命令がある.これは， 図7 に示す 
ように， 16ビットの データどうしで行われる. この 
操作は， FFT や DCT の変換処理に使用できる. 

• MIPS-3D ASE 

MIPS-3D ASE (Application Specific Extension ) は， 
MIPS 社が提唱している3次元グラフイックアプリ 
ケーシヨンを高速に処理するための拡張命令セットで 
ある.これは，3次元ジオメトリ処理のために，従来 
の命令セットに新たな13命令を追加したものになっ 
ている.従来の単精度，倍精度浮動小数点のデータ型 
のほかに，ペアドシングル （Paired Single ) ,ペアド 
ワード （Paired Word ) というデータ型が新設された. 
ペアドシングルとは，一つの64ビット浮動小数点レ 
ジスタに二つの単精度浮動小数点データを格納するも 
のである.ペアドワードとは，一つの64ビット浮動 
小数点レジスタに二つの単精度固定小数点データを格 
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m4 m8 ml 2、 
m5 m9 ml3 
m6 ml0 ml4 
m7 mil ml5j 


FPO 二 [ml I mO] FP8=[Y I X] 
FPl=[m3 | m2] FP9=[W I Z] 
FP2=[m5 | m4] 

FP3=[m7 | m6] 


頂点の変換 

[X., Y，，Z，，W，]=[X, Y, Z. W]* 




[x\ Y_]=[X. Y. Z, W]* 


行列の乗算を計算する命令列 
MUL.PS FP10,FP0,FP8 

MADD.PS FP11,FP10,FP1,FP9 
MUL.PS FP12,FP2,FP8 

MADD.PS FP13,FP12,FP3,FP9 
ADDR.PS FP14,FP11,FP13 


[Z.. W*]=[X, Y. Z, W]* 

"m8 

ml 2、 


m9 

ml3 


ml0 

m!4 


jnl1 

ml5j 


— FP10 = [mry I mO*X] 

— FP11=FP10 + [m3*W I m 2 * Z ] = [ml*Y+m3*W 丨 mO*X+m2*Z] 

— FP12 = [m5*Y I m4*X] 

— FP13 = FP12 + [m7*W 丨 m6*Z] = [m5*Y+m7*W | m4*X+m6*Z] 

— FP14 = [m 1 *Y+m3*W+mO*X+m2*Z | m5*Y+m7*W+m4*X+m6*Z] 
=[mO*X+m 1 *Y+m2*Z+m3*W | m4*X+m5*Y+m6*Z+m7*W] 


図 8 ADDR 命令の使用例 


頂点が指定領域にあるかテスト 

1X1 ^ |W| 

IYI ^ IWI 
IZI ^ IWI 


PUU.PS 

[W|W] 



NEG.PS 

[-WI-W] 



C.NGE. 

PS !(Y ^ -W)? 

!(X ^ -W)? 

—条件コード CC0.CC1 

C.NGE. 

s !(Z ^ -W)? 

—条件コード CC2 

C.LE.PS (Y ^ +W)? 

(X ^ +W)? 

—条件コード CC3.CC4 

C•LE.S 

(Z ^ +w)? 


—条件コード CC5 

BC1F 

CCO. 範囲外 

条件 （CCO) 不成立なら範囲外 

BC1F 

CC1, 範囲外 

条件 （CC1) 不成立なら範囲外 

BC1F 

CC2. 範囲外 

条件 （CC2) 不成立なら範囲外 

BC1F 

CC3. 範囲外 

条件 （CC3) 不成立なら範囲外 

BC1F 

CC4. 範囲外 

条件 （CC4) 不成立なら範囲外 

BC1F 

CC5, 範囲外 

条件 （CC5) 不成立なら範囲外 


(a) 従来方式での計算 


CABS•LE.PS 

(|Y| ^ IWI)? (IXI ^ IWI)? 

—条件コード cco.cci 

CABS.LE.PS 

(IWI ^ IWI)? (IZI ^ IWI)? 

—条件コード CC2.CC3 (CC2 は真） 

BC1ANY4F CC0.CC1.CC2.CC3, 範囲外 


—条件が一つでも偽なら範囲外 


図9 CABS と BCIANYnx の使用例 


(b) 新しい命令での計算式 


納するものである.これらは2ウェイの SIMD 方式で 
の処理(要は並列実行）を可能にする. 

MIPS 社によれば， MIPS -3 D を用いると，もっとも 
内側の処理ループのコードサイズを30%削減できる 
ので，1秒間に処理できるポリゴン数が45%増加する 
そうだ.頂点の座標変換での行列の乗算を高速化する 
ために， ペア ドシングルリダクション加算命令 ( ADDR ) 
が定義された（図 8). リダクションとは，行列とべク 
トル間の乗算の部分的な乗算処理を指すらしい.画像 


のクリッピングは，ペアドシングル絶対値比較命令 
( CABS ) と多重条件コード分岐命令 ( BCIANYnx ) によ 
って簡略化できる（図 9). 

透視変換には逆数命令 ( RECIP 1， RECIP 2) が使用 
できる.また光源処理には逆数平方根命令 ( RSQRT 1, 
RSQRT 2) が使用できる.これらの逆数演算は MIPS 64 
アーキテクチャにあるが，より高速に実行できる. 

そして，ペアドシングルとペアドワード間でデータ 
変換を高速に行う命令 ( CVT . PS . PW ， CVT . PW . PS ) も 


0 12 3 

rmlmE E 、 


4 5 6 7 
mmmm 

0 12 3 
mmm m 
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第 11 章命令セツトアーキテクチャの変遷 
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表14 MIPS-3D で拡張された命令 


ニーモニック 

処理 

ADDR 

浮動小数点リダクシヨン加算.組どうしの加算 

MULR 

浮動小数点リダクシヨン乗算.組どうしの乗算 

RECIP1 

逆数.高速近似値.精度的には劣る 

RECIP2 

逆数.第 2 ステップ.精度を上げる処理 

RSQRT1 

平方根の逆数.高速近似値.精度的には劣る 

RSQRT2 

平方根の逆数.第 2 ステップ.精度を上げる処理 

CVT.PS.PW 

ペアドワードからペアドシングルへの型変換 

CVT.PW.PS 

ペアドシングルからペアドワードへの型変換 

CABS 

浮動小数点絶対値比較 

BC1ANY2F 

二つの条件コードのどれかが偽なら分岐 

BC1ANY2T 

二つの条件コードのどれかが真なら分岐 

BC1ANY4F 

四つの条件コードのどれかが偽なら分岐 

BC1ANY4T 

四つの条件コードのどれかが真なら分岐 


ある. 

追加された13命令の概要を表14に示す. 

• 暗号処理命令 

暗号といえば，従来は 1C 力ードやスマートカード 
の機密保持に使用するものであった.しかし，ネット 
ワークが普及するにつれて，ネットワークを介した 
データ 転送の暗号処理機能が重要になってきた.従来 
は外付けのコプロセッサで対応していたが，より高速 
な処理を達成するため，暗号処理の基本機能を MPU 
の命令として提供することが考えられている. 

本来，暗号は自動化(ハードウェア化)が困難なよう 
に構成されるので，命令セットでサポートするのは無 
謀であるともいえる.しかし，純粋にソフトウェアで 
記述するよりも20〜100倍の性能向上が期待できるの 
で， MPU の特色を出すためには回路規模を犠牲にし 
ても採用する意義がある • 

2002年6月， Sun Microsystems は Ultra SPARC V 
に，暗号処理機能やネットワークのプロトコルスタッ 
クの処理機能の搭載を検討して いる ことを明らかにし 
た. IBM の Power5 でも同様の命令の導入が予定され 
ている. 

また，暗号処理機能をサポートするのは暗号エンジ 
ンの高速化だけでは不十分ということで，暗号を解く 
鍵や機器に固有の ID 番号などの情報を格納する特殊 
メモリ空間や，乱数生成をハードウェア機能として提 
供する MPU も登場し始めた.これらの機能は従来な 
ら MPU の外部ロジックで実現されていたが，セキユ 
リティを強化するためには，その機能を MPU 内部に 
取り込む必要がある. 

2003年1月には Transmeta が従来からの TM 5800 
に，暗号化エンジンをはじめとするセキュリティ機能 


を組み込むことを表明した.具体的には， DES や 
DES-X, 3DES のアクセラレータと，保護されたメモ 
リ領域を内蔵するらしい. 

2003年4月に出荷された VIA Technologies の新し 
い C3(Nehemiah) では PadLock と呼ぶセキュリティ 
機構（ノイズを利用したハードウエアによる乱数発生 
器と暗号化エンジン）を搭載している. 

2003年5月には， ARM 社が ARM 11以降の MPU で 
は TrustZone と呼ぶセキュリティ機能を内蔵すること 
を表明している.これは， Monitor モードという新し 
い動作モードを定義し，この動作モードでのみ保護し 
たアドレス空間へのアクセスを可能とする機能である. 

8 MPU の今後 

• RISC の終焉？ 

現代においてもっとも普及している MPU は x86 
(CISC) であり， RISC は終焉を迎えつつあるという見 
方がある . System Insider という Web サイトで， 
Massa POP Izumida 氏(元 x86 アーキテクトという）が， 
「頭脳放談」という連載の第27回 「RISC の敗因， 
CISC の勝因」〔參考文献1)〕で次のように述べて 
いる. 

① RISC 登場の背景は，単純な命令を高速に動かせば 
高性能が得られるという考えに基づく.これは 
ハードウエアを単純化することから始まった 

② しかし，さらなる高速化要求のために大規模な回 
路（スーパースカラや 多重 レベルキャッシュ など） 
が必要になり，回路が複雑になった 

③ 互換性を維持しながら新機能を追加することも複 
雑化の一因である 
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④ 結果，開発に多くのリソース（人的，物的）が必要 
になった 

⑤ CISC ( x 86) は， PC の普及が巨大な市場を形成し， 
リ ソースを 費やしただけの見返り（利益）が期待で 
きる 

⑥ RISC はその基盤である EWS 市場の成長が小さく， 
注ぎ込んだリソースに見合う見返りがない 

⑦ CISC にアーキテクチャ上の問題があったとして 
も，注ぎ込むリソース差が性能差 ( とくにクロック） 
や価格差に表れ， RISC よりも有利な状況にある 

⑧ 単純に技術要素のトレードオフを論じるなら RISC 
のほうが合理的であるが，現実世界ではきわめて 
偏りのある「ハンデ戦」で競争が行われている 

⑨ EWS の存在意義は既存設計資産が使えるというこ 
とのみで ， CAE ツール ベンダがコスト/バフ オー 
マンスの高い PC + Linux 対応の製品を投入してき 
ている現在では， EWS の将来性は危うい 

⑩ コンピューティング分野では，性能が上がらない 
RISC は青息吐息の状態 

⑪ RISC が全滅かというと否で，組み込み制御の世界 
には「高速化=リソース競争」とは違う競争原理 
が働いているため， RISC の生き残る道はある 
かなり的を射た意見であるとは思う.しかし， 
Massa POP Izumida 氏とは異なり，筆者はコンピュ 
一夕を RISC と CISC に分類して議論するのは無意味 
と考える. 

実際，現在 CISC と呼ばれるコンピュータも内部は 
RISC であり，たいていは命令デコード部と実行部が 
切り離される構成を採っているので，命令セットの違 
いはデコードが終了するまでになくなってしまう.結 
局，高速化を追及すると行き着く先は同じものになる 
と思われる. CISC が勝って RISC が負けたのではな 
く，両者が融合したと考えるほうが自然だと思う.ま 
た， Massa POP Izumida 氏は「性能=動作周波数」 
と考えているふしがあり，やはり 「 x 86 な人」なのだ 
と思う. 

• 最近の プロセッサ 事情 

最近， SoC ではおもしろい （？） 現象が起きている. 
プロセッサの性能はバス転送能力のみで決定され， 
CPU コア単体の性能は全体の性能に寄与しないとい 
うのである.極論すれば CPU コアは何でもよく，周 
辺機能として内蔵されるメモリコントローラや PCI コ 
ントローラの性能で，全体のシステム性能が決定する 
というものである. 


これは，ある意味では真実であろう.しかし，種々 
のサービスを提供するためには，プロセッサ性能は必 
要である.実システムで MPU ( CPU コア）の性能が支 
配的であるか否かは，そのシステムが稼働するまでは 
わからない.あるいは，周辺ユニットの動作周波数の 
都合から，性能はともかく CPU コアの動作周波数が 
決定されることもある. 

つまり， CPU コアの動作周波数はバスの周波数と 
同じ，または整数倍であることが望ましい.この時点 
の要旨は， CPU コアの性能ではなく，いかに周辺デ 
バイスとの共同で動作できるかである.性能ではなぐ 
動作周波数が要求される.このような状況ではプロセ 
ッサのマイクロアーキテクチャは意味をなさなくな 
り，動作周波数のみが議論の的となる.これは，性能 
向上のための動作周波数の向上とは別の次元の話で 
ある（キャッシュのヒット率は重要ではあるが) • 
現在では， CPU コア単体の性能がいくら良くても 
意味をなさない時代になっているのかもしれない. 

まとめ 

過去から現在に至る MPU の命令セットアーキテク 
チャを見てきた.アーキテクチャには， CISC とか 
RISC という区別はあるものの，それらが提供する命 
令セットにはたいして違いがないことがおわかりにな 
ったと思う. MPU ができることは昔も今も変わらな 
い.ただ， SIMD 命令による並列処理が新たな潮流と 
いえるかもしれない.この傾向は，他社との差別化の 
ために，今後ますます強くなっていくだろう. 

また， 一つの アーキテクチャを維持するのは たいへ 
んなことである.システムの環境整備にはばくだいな 
金額がかかる.いきおい，ハードウェアは従来との互 
換性を維持しようとし，ソフトウェア（とくに 0 S ) の 
サポートのないアーキテクチャは滅びていく. Alpha 
が滅び IA -64 が生き延びていく傾向は，それをよく表 
している. 

参考文献 

1) Massa POP Izumida, 「頭脳放談第 27 回 RISC の敗因， 
CISC の勝因 」 （http : / / www . atmarki t .co . 
jp/fsys/zunouhoudan/0 2 7 zunou/end 一 0 f_risc. 
html) 

2) H. Kaneko et al.，"Realizing the V80 and Its System 
Support Functions ’’， IEEE Micro, April 1990, pp.56- 
69 

3) R . S.Piepho et al.，"A Comparison of RISC Archtec 
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• msc は CISC に対するアンチテーゼ 

RISC は CISC に対するアンチテーゼとして開発された. 
その発想は， CISC ではむだな命令が多く，それが動作周 
波数を上げる妨げになっているというものだ.洗練された 
簡単な命令セットにすれば，パイプライン処理を効率的に 
動作させることができ，動作周波数の向上とあいまって最 
高の性能を達成できる.この観点で，1980年代から，大学 
や企業でさかんに RISC の研究が行われるようになった. 

ある時期まで， CISC は思いつきでアーキテクチャを拡 
張していった感があるが， RISC は最初から定量的に性能 
評価をしながら論理的にアーキテクチャを決定していった. 

• CISC …… いや， X86 の一人勝ち？ 

RISC は，本来は動作周波数を上げるための技術である 
が，現時点では x 86 系 MPU のほうが動作周波数が高い. 
結局は，プロセス技術の開発に莫ばくだいな投資をできる 
企業だけが生き残ることができるのだ.投資回収という観 
点から見れば，需要がしれているサーバや EWS 向けの 
RISC の利益が少ないのは明らかで，ばくだいな数が出荷 
されている PC 用の MPU には太刀打ちできない.金持ちは 
より金持ちに，貧乏はより貧乏に，もしくは論理派が現場 
からの叩き上げに負けたようなものであろうか. 

しかし， x 86 が RISC の技術を採り入れながら性能(特に 
IPC ) の向上を図ってきたのは事実であり，その上でプロ 
セス技術によってさらなる高速化がなされたと考えること 
ができる.その意味で， x 86 の進化にあって， RISC は高速 
化のためのアイデアを提供してきたとも言える. Intel と 
並ぶ優秀なプロセス技術を有する IBM は，自社の RISC で 
ある PowerPC で一人気を吐いているが，ほかの RISC は 
サーバ/ EWS / PC などの高性能が要求される分野からは早 
晚消滅していくかもしれない. 

• RISC の進むべき道 

RISC の進むべき道としては，性能よりも超低消費電力 
が要求される組み込み制御の分野であろう. CISC は性能 


を追求するあまり，消費電力には無頓着になっている.最 
近こそ In tel なども電力削減のスローガンを掲げているが， 
ARM や SH や MIPS など，早い時期から低電力を売りにし 
てきた RISC には追いつけない. GHz を超える動作周波数 
を維持しようとする限り，永久に追いつくことは不可能で 
あろう.そこに RISC の生きる道があると思われる. 

RISC には， x 86 のように PC を中心とした共通の応用分 
野があるわけではなく，各コンピュータメーカーが自社の 
サーバや EWS を高速化できればいいという発想で開発が 
続けられたので，そのアーキテクチャは各社バラバラであ 
る.したがって，その解説はオムニバス形式にならざるを 
えない. 

ARM や SH や MIPS は，組み込み制御分野を自分の色に 
塗り変えようと必死の努力をしているが， x 86 のように世 
界統一できる日が来るのだろうか. 

RISC プロセッサの興亡 

以降では RISC 系 MPU の興亡史を簡単にまとめてエピロー 
グに代える. 

• IBM801 

1975年， IBM は高級言語のプログラムを用いて既存の 
ものよりも非常にコスト/パフオー マンスの よいシステム 
を提供するため，ハードウェア， OS ， コンパイラを含め 
たコンピュータシステムの設計に着手した.その設計思想 
はほとんどの命令の処理は1クロックで終了するべきとい 
うものだった.これは，コンパイラが生成する命令コード 
は基本命令（ロード，ストア，分岐，比較，加算）ばかりで 
あり，それらを高速化すれば全体の性能が向上するという 
根拠に基づく.その研究の結果，生まれたのが IBM 801 で 
ある.しかし，なぜか IBM は1982年までその存在を公表 
しなかったという. 

IBM 801 の扱うデータ型はキャラクタ（バイト）， ハーフ 
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ワード，ワードの3種類で，アドレッシングモードはベー 
ス+インデックス+オフセットという単純なものだった. 
命令長は1ワード固定で，3オペランド演算を行った.ま 
た，当時は汎用レジスタの本数は16本が主流だったが， 
IBM 801 は32本のレジスタを備えていたのが特徴的であ 
る. IBM 801 は ECL プロセスで製造され，決して VLSI と 
呼べる集積度ではなかったが，命令キャッシュなど RISC 
の特徴を備えており，後年のカリフォル ニア 大学バークレー 
校やスタンフォード大学の RISC 研究に大きな影響を与えた. 

その割りには， IBM 自身は RISC の有効性に気付いてい 
たとは言い難く， IBM が RISC に本格的に手を染めるのは， 
1992年の PowerPC になってからである. 

_ バークレー RISC I /RISC n 

カリフォルニア大学バークレー校の RISC の研究は，高 
級言語コンパイラが複雑な命令を有効に使えないことに着 
目したことから始まった.プログラム実行時の命令の出現 
頻度，アドレッシングモード，変数の使われ方などの統計 
を採り，新しい命令セット設計の指針とした.この研究結 
果は，1980年に同大学の Patterson と Ditzel によって初め 
ての RISC に関する論文 『The Case for the Reduced 
Instruction Set Computer 』 として発表された.この論文 
はシングルチップコンピュータに最適なアーキテクチャは 
RISC であると主張し，バークレー校の大学院生がその理 
論を実践したのが Rise I と Risen である.これらは当時 
の CISC よりも単純で，設計の労力も少なかったが ， CISC 
に匹敵する性能を発揮していた.かくして，バークレー 
RISC は後の ARM や SPARC アーキテクチャの基礎となる 
のである.また， RISC という言葉はバークレー校によっ 
て初めて使用された. 

ちなみに Ditze ] は， Crusoe を開発した Transmeta の創 
業者としても有名である. RISC を提案した彼が Crusoe で 
は VLIW を選択したところが興味深い. 

• スタンフオード MIPS 

バークレー RISC と同時期，スタンフォード大学でも 
Hennessy 教授を中心に RISC の研究が行われていた.それ 
は以前の RISC とは毛色が違い，ハードウェアをできるだ 
け単純にして，レジスタの依存関係等の煩雑な処理はリオ 
ーガナイザと呼ばれる再構成ソフトウェアで解決しようと 
試みた.パイプラインを効率的に動作させるためにハード 
ウェアによるインターロックを許さず，ソフトウェアで命 
令の順序を並び替えて正常動作を保証する. 

このためスタンフオード大学の RISC は 『Microproces 
sor without Interlocked Pipeline Stages (パイプラインス 
テージがインターロックしないマイクロプロセッサ）』の 


頭文字を採って MIPS と呼ばれた.もちろん，コンピュー 
夕の性能を示す MIPS (Million Instructions Per Second ) と 
の掛け言葉である. 

MIPS ではハードウェアを簡単にするために，メモリア 
クセスはワードアクセスのみとし，バイト単位の操作が必 
要な場合は専用命令を使ってレジスタ上で処理する.また， 
汎用レジスタは16本だった. 

最初の MIPS プロセッサは実用的といえるものではな 
い.しかし，スタンフォード大学の研究者たちは，その研 
究を推し進め， 2 K バイトの内蔵命令キャッシュと 256 K バ 
イトの外付け混合キャッシュインターフェース，32本の汎 
用レジスタ，乗除算用の特殊レジスタ，ゼロレジスタ，5 
段パイプラインを特徴とする MIPS - X というプロセッサを 
設計した.これは後の R 2000とほぼ同じ構成であるが，分 
岐の遅延スロットが2命令である点が決定的に異なる. 

• R 2000以降の MIPS 

スタンフォード MIPS の研究成果を受けて，1984年にベ 
ンチャー企業の MIPS Computer Systems (現 MIPS Tech 
nologies Inc .) が生まれ， R 2000 を始めとする非常に高速な 
プロセッサファミリを世に送り出すことになる.これは， 
Hennessy 教授の研究成果を誰も信じてくれなかったため， 
RISC で高性能を達成できることを実証するために自ら 
MIPS 社を創設したものである. 

1991年， MIPS 社は世界初の64ビット MPU である R 4000 
を発表する. CPU , FPU , L 1 キャッシュ， L 2 キャッシュ 
インターフェース，マルチプロセッサ機能を1チップに内 
蔵した画期的なものだった. 

MIPS の MPU はそれまで主に SGI (Silicon Graphics Inc .) 
の GWS に採用されていたが， SGI は1992年に MIPS 社を 
買収して超高性能な MPU の開発を行わせることになる. 
それが R 10000を始めとするハイエンドプロセッサシリー 
ズである. R 10000 の開発と並行して， MIPS 社はローエン 
ドの R 4200 / R 4300も開発している, R 4300 は Nintendo 64 
に採用されることを目的として開発された MPU である. 

この頃になると，元 MIPS 社の開発メンバがスピンアウ 
卜して QED (現 PMC - Sierra ), SandCraft といった新しい 
会社を設立し， MIPS 社とは別個に MIPS アーキテクチャ 
の MPU を開発するようになった. 

そして1998年， SGI が自社の GWS の MPU として将来的 
に Intel の IA -64 プロセッサ ( Itanium ) を採用することを決 
定すると， MIPS 社はライセンス管理と IP コアの販売を目 
的として SGI から分社化される.分社化された MIPS 社は， 
それまでの MIPS アーキテクチャを，32ビットの MIPS 32, 
64ビツトの MIPS 64 として再整理した.そしてそのほかに 
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も，特定分野向けに MIPS アーキテクチャの拡張を積極的 
に行うようになった.たとえば，組み込み制御用に16ビッ 
卜長の命令でコード効率を上げる MIPS 16, 3次元グラフィ 
ツク ス 用の MIPS -3 D ， スマ ートカードや Java 用の Smart 
MIPS ， ネットワークアプリケーシヨン拡張用などを提唱 
している. 

現在では， SGI , MIPS 社以外でも，独自に MIPS アーキ 
テクチャのプロセッサを製造するようになっている.代表 
的なところでは， PMC - Sierra , IDT , NEC ( V R シリーズ）， 
東芝 (TX シリーズ)， Alchemy , SiByte (現在は Broadcom 
に買収された）がある.特に Alchemy と SiByte は DEC で 
Alpha チップや Strong ARM チップを開発していた技術者 
がスピンアウトして設立した会社である.いわば，ほかの 
アーキテクチャからの乗り換え組である. 

2002年2月， Alchemy は x 86 互換メーカーの老舗である 
AMD に買収された. Alchemy は AulOOO / 細1500という 
MPU で， 400 MHz で 500 mW ，500 MHz で 900 mW と，高 
動作周波数にもかかわらず低消費電力を達成していること 
で定評がある. Intel が StrongARM や XScale でインター 
ネットアクセス系の組み込み分野に進出しようとしている 
のに対抗する形である. IP コアの分野において， MIPS は 
ARM よりもやや不利な状況にあったが，この買収劇で 
MIPS 陣営が活気づくかもしれない.さらに2002年4月29 
日， AMD は MIPS 64 のライセンスを取得した . Alchemy 
は MIPS 32 のライセンスしかもってなかったが'，これで 
AMD は思う存分 MIPS チップを製造できる， 

さらに2003年8月6日， AMD は組み込み向け x 86 プロ 
セッサである Geode を National Semiconductor から買収し 
た. AulOOO シリーズの運命はどうなるのかと思ったが'， 
MIPS プロセッサは低消費電力が重要な携帯機器分野で生 
き残るという. Geode の消費電力は 7 W 程度， AulOOO シリ 
ーズの消費電力は 0.5 W 程度である. 

• MIPS も周波数競争に参入 

2002年10月の Microprocessor Forum では ， Broadcom 
が 1 GHz の MIPS 64 コア ( SB 1) を1チップに4個内蔵する 
BCM 1 400を発表した.消費電力は， 1 GHz 動作時に1チッ 
プ全体で 25 W とかなり小さい.同フォーラムで東芝は800 
MHz 動作の TX 99( Amethyst ) を CPU コアとする SoC であ 
る TMPR 9961 を発表した. CPU コアは MIPS でありなが 
ら，内部バスが ARM 系の AMBA バス （ AHB ) であること 
が興味深い.また同時期， NEC は V R 5500(コードネーム 
Sapphire ) という CPU コアで 800 MHz 動作を達成したと発 
表し，2003年には 1 GHz 版の開発を終了すると発表した • 
PowerPC や x 86 系の MPU に対して周波数の向上が遅れて 


いると酷評されることが多い MIPS アーキテクチャである 
が，着実に動作周波数を上げてきている. 

もっとも， MIPS アーキテクチャプロセッサで1 GHz 動 
作という発表は以前からあり， PMC - Sierra は2001年の 
Microprocessor Forum で 1 GHz 動作の RM 9000 x 2 を発表し 
た. BoradCom も直後に SB 1を2個内蔵する BCM 1250 を 
発表した.しかし，いずれも 1 GHz 動作時の消費電力は非 
常に大きく， 1 GHz で使用している顧客は少ないと聞く. 
ちなみに，消費電力のカタログ値は， RM 9000 x 2 が 5 W ， 
BCM 1250 が 6 W (3 Wx 2) と小さめである.しかし， PMC - 
Sierra は低電力化のために シングルコアの RM 9000 xl を開 
発した. Broadcom も PCM 1250 の シングルコア 版である 
BCM 1125を発表している. PMC - Sierra にしろ Broadcom 
にしろ1 GHz 動作を表明しているが，その消費電力の高さ 
からか使い方は難しいようである. 

2002年4月には Intrinsity 社が 2 GHz 動作 （！） の MIPS 32 
プロセッサである FastMIPS と FastMATH を発表してい 
るが，これもどうだろうか.消費電力は10〜 20 W という 
が，2003年に消費電力を下げた 1 GHz 動作の FastMATH - 
LP を発表しているところが実に怪しい. 

2003年10月31日には， PMC - Sierra は，改めて（？），1 
GHz 動作の RM 9000 xlGL シリーズを発表した.ギガビッ 
卜 EtherMAC , 最大 500 MHz 対応の DDR - SDRAM コント 
ローラ ， Hyper Transport を内蔵して，消費電力は 7 W 未 
満という.この消費電力では x 86 プロセッサと競合する応 
用分野しか残されてないと思うが，そうなれば ( x 86 より 
は IPC が高い MIPS 系の特徴を考慮したとしても）1 GHz で 
はまだまだ性能不足かと思われる. 

• MIPS の将来は… 

現在， MIPS 64 系の IP コアは 5 K のみとなり， 20 K ( Ruby ) 
と 25 Kf ( Amethyst ) が新しいロードマップからは消え失せ 
ている.これは， MIPS 社が MIPS 32 アーキテクチャに注 
力しようという表れであろう.新しいプロセッサの 24 K と 
いう名称は明らかに 25 K ( Amethyst ) の下位チップである 
ことを強調するものである.スーパースカラではなくなっ 
たが，シングルパイプで動作周波数を向上させていくこと 
で 20 K や 25 K の置き換えをねらったものであろう.東芝は 
MIPS 社と共同で TX 99(25 Kf ， Amethyst ) の開発を行って 
いたが，これでは梯子を外された格好である. 

これをもって， MIPS 社は MIPS アーキテクチャを管理 • 
維持していく求心力を失ったと見る向きもある. 2003年5 
月には SandCraft 社も倒座（のちに Raza Microelectoronics 
社が買収）しており，64ビットアーキテクチャ （ MIPS 64) を 
維持していくためには， NEC , 東芝， PMC - Sierra ( QED ), 
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AMD ( Alchemy ), Broadcom ( SiByte ) の頑張りが期待さ 
れる. 

さて，2003年10月には SGI が自社サーバを Itanium 2 で 
統一していく方針を決定しており， R 18000の開発は中断 
したという噂が流れている， R 1 6000の高速版 （1 GHz ?) を 
開発して MIP S プロセッサの開発は集約する方向と聞く. 
MIPS の将来はますます危うしといったところか. 

ただ，標準品としての MIPS プロセッサの販売は難しく 
なったが， SoC の CPU コアとしての MIPS は健在でありつ 
づけると考える.これで，ライバルの ARM の売り方にま 
すます似てきたといえる.とはいえ， ARM が1社でアー 
キテクチャを支えているのに対して， MIPS は上述のライ 
センシー各社が共同で支えているという感じである. 

• ARM 

ARM の歴史は，英 BBC 教育チャネルによる教育用コン 
ピュータブロジェクトに端を発する.このプロジェクトが 
Acorn Computer に発展した.1983年， Acorn 社は英国で 
成功を収めていた6502を搭載した BBC コンピュータ（一般 
には Beep として知られている）の次機種用の MPU を探し 
ていた.しかし市場に出ていた MPU で満足のいくものが 
なかったため， Acorn 社は MPU を自社開発することにし 
た.しかし， MPU 設計の経験が浅かった Acorn 社は少な 
い設計労力で良い設計をする必要があった.そこに現われ 
たのがバークレーの RISC I の論文であり，それを参考に， 
約18ヶ月を費やして MPU 設計がされた.これが Acorn 
RISC Machine , つまり ARM である. 

ARM プロセッサは，当時 PDA Newton を計画していた 
Apple の目にとまり，同機の CPU として採用されることに 
なった.これが契機となり，1990年に ARM は， Apple , 
Acorn , VLSI Technology の出資によって設立された 
Advanced RISC Machines 社に移管された.そして，その 
3年後に Newton が発売された. 

ARM は ARM 7 でヒットを飛ばし， ARM 8, ARM 9 とアー 
キテクチヤを開発していく. 

後年 ， ARM 社は DEC (Digital Equipment Corporation ) 
と共同で Strong ARM を開発した.これは，高速動作を誇 
る DEC の Alpha プロセッサの技術を応用して高い性能を 
引き出そうとするものである. ARM としてはキャッシュ 
構成に初めてハーバードアーキテクチャを採用した. 

一方， StrongARM 部門は Intd 社に買収された.正確に 
は，1997年に DEC 社が Intel を Alpha の知的所有権侵害と 
して提訴した際の和解条件の一環として， DEC 社が半導 
体工場を Intel に売却したとき，工場と一緒に ARM の製造 
権利も付いてきたのだ. Intel にすれば PC 用 MPU 以外の 


組み込み制御分野への事業展開を図るための手駒をおまけ 
同然 （？） に入手したわけである.この状況に面白くないの 
は ARM 社である. ARM 社自体は ARM 9， ARM 10 と独自 
の製品展開を行っていくが， StrongARM に関しては口を 
閉ざして何も語らなかった. 

ところで， ARM アーキテクチャの版数は ARM プロセ 
ッサの種類と密接に関係している.基本的に， ARM 6 と前 
期の ARM 7 が v 3, 後期の ARM 7， ARMS , ARM 9 が v 4, 
ARM 10 が v 5 である.なお， ARM 1， ARM 2, ARM 3 が 
Arcon 社によって作られた MPU であり， ARM 6 以降が 
ARM 社によって作られた MPU である. ARM 4, ARM 5 は 
Acorn から ARM への変更過程で欠番となった. 

現在最新のアーキテクチャである v 6 の特徴を一言でい 
うと， SIMD 命令の追加によるマルチメデァ拡張である. 
注目すべき点は，キャッシュの構成が仮想アドレスキャッ 
シュから物理アドレスキャッシュに変わったことであろ 
う.物理メモリの有効活用が目的というが，互換性の問題 
は大丈夫なのだろうか. MIPS と同様，このところの 
ARM アーキテクチャもゴチャゴチャしたものになってき 
たと思うのは筆者だけか. 

ARM 社は ARM の製造ライセンスを多くの半導体メー 
カーに与えているが，基本的に， ARM アーキテクチャの 
改造権はない. ARM 社の提供する設計情報をそのまま使 
用しなければならない.これが， ICE 機能をも含め，確固 
たる互換性を実現している. MIPS が売りにしている独自 
命令拡張機能も，応用分野を限定するものであり，互換性 
を損なうとして，導入するつもりはないようだ. 

しかし， StrongARM を製造する Inte 】 には ARM 社の強 
制力はない. Intel は独自に StrongARM を改造して，より 
高速，より低消費電力な StrongARM 2( 後に XScale として 
発表された）を開発してしまった.しかし XScale 登場当初 
は，バグが直らず散々だったようだ. 

そして2001年7月30日， ARM 社は次世代のプロセッサ 
アーキテクチャ v 6 を， Intel と Texas Instruments ( TI ) にラ 
イセンスすると発表した. ARM と Intel は不仲だったはず 
では？しかし， Palm が次期 OS 用のデバイスとして ARM 
アーキテクチャを採用するにあたり， Intel , TI , Motorola 
と提携することを表明したのを契機に和解したのかもしれ 
ない（真相は不明）. XSca 】 e の（バグゃ性能が低いという） 
評判を受けて， ARM 社が XScale を脅威に感じなくなった 
せいというのは穿ち過ぎか. 

別の情報筋によれば， Intel は元々 ARM アーキテクチャ 
をカスタマイズする権利を有していたという.今回契約を 
拡大し， v 6 だけでなく， ARM 7, ARM 9, ARM 10 のコア 


340 



にアクセスする権利を得た という. arm と Intel の不仲説 
は幻想だったのかもしれ ない. 実際，いつの間にか 
XScale の命令セットは ARM v 5 TE 互換ということになっ 
ている.これは XScale も純粋な ARM の系譜であることを 
強調するものである.現在， StrongARM と XScale が 
ARM の Web サイトに載っていることを思うと感慨深い. 

2002年4月29日， ARM は Embedded Processor Forum 
で ARM 11 コアを発表した.これは， v 6 アーキテクチャに 
基づく最初の製品となり，2002年第4四半期にライセンス 
を開始するという. XScale を ARM の一員と認めつつも， 
本家 ARM の意地にかけて，より高性能の MPU をぶつけ 
てきたというところか. 

ところで， ARM は MIPS とは異なり，熾烈な周波数競 
争に参入する気配はない. 2002年の末に Sumsung 社が 1.2 
GHz 動作の ARM 10を発表したが，これは特異な例であろ 
う.本家の ARM は組み込み制御分野では，動作周波数と 
消費電力のバランスが重要と考えているようだ.動作周波 
数は製造プロセスのトレンド （0.13 プロセスなら550 
MHz 程度）を維持しつつ，いかに低消費電力化するかに注 
力しているように見える. 

ARM 社によると，2004年には ARM 11 の次の MPU 
( ARM 12 ?) を製品化するとしている.これは，0.13 //m 
ルールで 600 MHz 以上， 90 nm ルールで 800 MHz 以上の動 
作周波数を予定しているらしい. 

• XScale 

XScale は ， ARM と 同様に， Intel が独自設計した ARM 
互換の CPU コアの 名称である.ただ，当初は（今も？）マ 
イクロアーキテクチャの 名称だった.周辺機能を交換する 
ことで いろいろな 種類の製品に展開できる. ARM が， 
SoC の CPU コアと なることを目的としていて，カスタム 
チッ プ形態で供給されるのとは反対に， XScale は特定の 
周辺機能を内蔵した標準品として供給される. XScale の 
名称の由来は，明らかに Extended Scale であり，動作ク 
ロックが数] MHz から 1 GHz までと広い範囲に使える CPU 
コア を提供するという意気込みが表れている. 

XScale の開発の契機となったのは WindowsCE マシン 用 
に新 MPU が必要になったことである.最初 ， WindowsCE 
マシン に搭載されていたのは StrongARM ( SA 1100) という 
MPU で， 190 MHz という高速動作の割りに 330 mW という 
低消費電力が特徴だった.ただ，消費電力に重点を置くあ 
まり，性能は二の次となっている感があった. ベンチマー 
クテストによる性能は惨たんたるものだった.性能の出な 
い（公式な？）理由はバス転送能力が低いということで，バ 
ス速度を向上させた SA 1500 という製品が計画されていた 
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が消息不明である. 

その後，1999年後半からリリースされた WindowsCE 3.0 
( Rapier ) に搭載されたのは SA 1110という MPU である. 
これは SA 1100 の高速版 (206 MHz 動作）である.バスサイ 
クルの周波数が 103 MHz と高速なので，それなりの性能を 
発揮した.従来機と比較して「信じられないほどの高性能」 
と評した人もいた.しかし，対抗の MIPS や SH と比較す 
ると，相対的な性能は大したことなかった. 

WindowsCE の StrongARM の惡評を打ち消すため， 
1999年ごろから Intel が本気になった. DEC による Strong 
ARM の設計を放棄し，自社開発に踏み切ったのだ.その 
性能たるや， 600 MHz で動作し， CPU コアの消費電力が 
0.1 mW ( l チップでは 450 mW ) というもので， Intel でなか 
ったら戯言としか受け取られない高性能である.この数値 
を競合他社はかなり脅威に感じているはずだ（ただ，実際 
の性能は 600 MHz 動作で約 700 MIPS と控えめではある）. 
有言実行できるか否か，その答えは近いうちに出るはずだ 
った.しかし，次期 StrongARM ( SA 2) の開発には3年以 
上の歳月を要してしまった. 

2000年8月23日 ， Intel Developer Forum にて次期 SA 2 
の発表があった.が，蓋を空けてみると話が大きくなって 
いた. SA 2 は，第三世代 （3 G ) の携带電話機用に開発した 
XScale というマイクロアーキテクチャを実装し，最高 
1 GHz の周波数で動作するという.しかも，そのときの消 
费電力はわずか 1.5 W というから驚きである.性能は約1300 
MIPS とか. 

しかし，ターゲット市場の本命は，あくまでも携帯電話 
であることを匂わせていた.この場合， 50 MHz で動作さ 
せることになり，そのときの消費電力は 10 mW という•こ 
れは従来の MPU なら待機時並の低電力である.この時点 
では， SA 2 が WindowsCE に使われる目はなくなったと見 
られていた. 

ところが， WindowsCE には採用されないという風評に 
反し，2002年2月12日， Intel は XScale をコアとする 
PXA 250 と PXA 210 というプロセッサを日本で先行発表し 
た. PXA 250 が 200/300/400 MHz の3品種， PXA 210 が 
133/200 MHZ の2品種となっている.しかし，実際に 
WindowsCE ( PocketPC 200 2) に採用されてたのは 400 MHz 
品ばかりだった. WindowsCE では OS が重過ぎて，200 
MHz や 300 MHz 動作ではまともな性能が出ないらしい. 

しかし，その PXA 250 も思ったほどの性能ではなかった. 
パイプラインの段数が増加したこともあるが，バス速度が 
1001 VIHz と低いことが最大の原因といわれた.ベンチマー 
クテストによると， PXA 250 の 400 MHz 品と SA 1110 の206 
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MHz 品の体感性能にほとんど違いがなく，ユーザーを失 
望させた. 

PXA 250 に関してはキャッ シュの ライトバック機能にバ 
グがあり，ライトス ルーで 操作させていたために性能が低 
下しているとの悪評があったが，2003年3月25日，そのバ 
グを修正した PXA 255 が正式発表された （ WindowCE 用に 
は，その少し前から流通していた）. PXA 255 ではバス速 
度も 200 MHz に向上され，それなりの性能になったため， 
ユーザーの 信頼を取り戻すことに成功した. 

PXA 255 の発表と同時に ， Flash メモリを1チップ内に集 
積する，いわゆるスタックまたは SiP (System In Package ) 
という構成を採る PXA 263 も発表された.これにより，デ 
バイス内の部品数を減らすことができ，メーカーは製品の 
サイズ縮小や新機能搭載が可能になる. 

この頃から， XScale のロー ドマップが明確になってき 
た. XScale プ a セッサを WindowsCE や PalmOS といった 
携帯機器だけでなく，ワイヤレススマートディスプレイや 
携帯メディアプレーヤーにまで拡大することを模索して 
いる. 

携帯電話向けには PAX 800 F (コードネーム Manitoba ) が 
ある. 312 MHz の XScale プロセッサ， 4 M バイトの Flash 
メモリ， 104 MHz の DSP を SiP に封入する. 

また，ネットワーク分野にも， EthernetMAC や USB を 
内蔵した IXP シリーズという XScale プロセッサを搭載し 
たチップが投入されている.とくに， IXP 422 と IXP 425 は， 
暗号の補助機能が内蔵されており，その低価格戦略のゆえ 
か，広範囲に採用されている.動作クロックには266/400/ 
533 MHz 版があり，その高性能さもアピールしている. 

さらに，次世代携帯機器向けに， PXA 255 の後継機種の 
Bulverde と呼ばれる XScale プロセッサに取り組んでいる 
ことも表明している.ワイヤレス MMX と Mobile Scalable 
Link という新機能が搭載され，動作クロックも 500 MHz 〜 
600 MHz になるという.性能的には PXA 255 の 1.5 倍以上 
といわれている. 

• 旧 60 と i960 

i 860 は，1986年に開発が着手され，1989年に発表された 
Intel 初の RISC プロセッサである.1988年の半導体技術を 
考えると，100万トランジスタを1チップに集積できると 
し， x 86 とは異なる新しいアーキテクチャを提供する目的 
で開発された.特徴として，二つの32ビット命令(整数と 
浮動小数点）を64ビット命令とみなして，1度に命令キャ 
ッシュから取り込んで同時に実行するデュアル命令モード 
を備える.これをもって，1チップ VLIW の第1弾という 
栄誉を受けている. 


i 860 はべク トル 浮動小数点演算器や MMX の原型ともい 
えるグラフィック命令を内蔵していた.結果，1386 + 80387 
の性能を上回る高性能を実現することができ，従来のスー 
パーコンピュータ や ミニコン が提供していた 科学技術 計算 
や各種のシ ミュレー ションをより小型で安価なシステムで 
実現できた. 

ただ， i 860 では，命令を正確に実行する責任（ハザード 
回避）はハードウエアよりもむしろコンパイラに任せてい 
た.結果として i 860 は成功しなかったが，すべてソフト任 
せというハードウエアの自由度の低さが一因だったのでな 
かろうか.結局，コンパイラがうまく開発できなかったの 
だろう. 

i 960 は，1988年に発表された Intel の組み込み制御向け 
の RISC プロセッサである. i 960 KA を基本とし， FPU を 
内蔵した i 960 KB ， マルチタスク， MMU , フォールトトレ 
ラント機能をサボートするミリタリーグレード（軍用）の 
i 960 MC があった.1989年には i 960 KA をスーパースカラ 
構造にした i 960 CA も開発されている. 

i 860/ i 960 と Intel が立て続けに RISC プロセッサを発表し 
たため，世の中の風潮は RISC になるのではと思われたが， 
それほど流行らなかった.ほどなく，当の Intel が80486を 
発表して RISC 対抗を打ち出したところに方針の矛盾を感 
じる. 

1860/1960は現在でも，シリーズ名は若干変更されたが， 
DSP の代用品や RAID 用のプロセッサとして生き残って 
いる. 

• 88000 

EWS 用の MPU が RISC に傾き始めると Motorola もその 
風潮に迎合した.1988年から88000の出荷を開始した.当 
時の副社長は「混乱した32ビットプロセッサの競争で生 
き残ったのは Intel と Motorola だ. RISC も同様だ.」と自 
信満々のコメントを出していた. 

88000とは CPU である MC 88100とキャッシュと MMU 
を内蔵する MC 88200というチップの総称である.コード 
ュニット， データ ユニット， 整数 ュニット， FPU (加減乗 
除と変換用の二つ）の計五つの ユニッ トが 各自 パイプライ 
ンで並行動作するという意味でスーパースカラのはしりで 
ある.1988年に発表された. MC 88100は比較結果を反映 
させる条件コードレジスタを もっていない . 比較命令は， 
ほかの演算命令と同じく，3オペランド命令で，比較結果 
をデスティネーションレジスタに格納する.条件分岐命令 
はこのレジスタの値に 基づいて 分岐する.この構成により， 
比較命令と条件分岐命令間の命令を自由にスケジューリン 
グ(入れ替え)できる.条件コードを使用しないこの方式は， 
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MIPS を初めとする多くの RISC で採用されている. 

しかし，88000自体はすでに開発を終了し， Motorola の 
主流は PowerPC に移行している. 88000の売れ行きは，最 
初は好調だったが，徐々に翳りを見せていった. 88000の 
失敗の原因はいくつかあるが，最大の原因は Intel の i 486 
対抗の68040と並行して開発をしたため，リソース不足と 
なり次機種の開発が大幅に遅れてしまったことである.実 
際，88000と68040そのものも開発遅れとなった.特に 
68040の開発遅れは EWS メーカーからの採用が相次いでキ 
ャンセルとなり， RISC に移行するきっかけを与えてしま 
った. 

• SPARC 

SPARC とは 「Scalable Processor ARChitecture (拡張性 
のあるアーキテクチャ）』を意味する.それ自体は命令セ 
ット，アドレッシング， MMU のソフトウェアのみの規格 
であり，実装は半導体メーカーに任されている. 

現在の SPARC は，1992年に Sun Microsystems がバー 
クレー RISC の研究成果を基に，自社の EWS である SUN 4 
用の MPU のアーキテクチャとして提唱し開発したもので 
ある.その仕様はオープンアーキテクチャとして SPARC 
インターナショナル社によって管理されている.そのメン 
バーは Sun のほかに，富士通， TI，LSI Logic , Ross など 
で，各社が独自に SPARC チップの開発を行っている. 

SPARC にはいくつかのバージョンがあり，最新バージ 
ョンは9である.バージョン9は64ビットアーキテクチャ 
であるが，（少し前の）典型的な SPARC チップは32ビット 
アーキテクチャのバージョン7または8に基づいている. 

2001年ごろから ， SUN OS ( Solaris ) の64ビット化が急速 
に進行中で， MPU もバージョン9を実装する UltraSPARC 
ID の 750 MHz 品を搭載したマシンが SUN の稼ぎ頭になっ 
てきた（なお， UltraSPARC シリーズの製造は TI が担当し 
ている）.またサーバーや EWS 分野だけでなく，組み込み 
向け分野では，低消費電力版 SPARC として SPARCLite 
(富士通）などもシェアをもっている. 

Sun は IA -64 の Itanium をライバルと考えている節があ 
る.しかし IA -64 同様，実際の製品出荷は発表したロード 
マップからは遅れぎみだ. Sun では，現在，別々の開発チー 
ムが UltraSPARC IV と UltraSPARC V の開発に従事して 
いる . UltraSPARC V の動作周波数は 1.5 GHz を匂わせて 
いるが， 1 GHz 動作の UltraSPARC IV も出荷されてない現 
状では，まだ海のものとも山のものともわからない.なお， 
2003年の Microprocessor Forum で ， Sun は UltraSPARC 
IV は2004年6月までに 1.2 GHz で登場すると発表している. 
UltraSPARC IV は ， UltraSPARC ID を2個内蔵するチップ 


で ， UltraSPARC ID と端子互換になる. 

なお，富士通は自社のサーバに搭載するために Sun とは 
別個に ， SPARC V 9( バージョン 9) を実装する SPARC 64 
シリーズを開発している. 2003年に出荷している最新チッ 
プは 1.35 GHz 動作の SPARC 64 V である. V というのは第5 
世代の SPARC チップを示している. 

富士通のロー ドマップによると，2004年後半には 2 CPU 
コアで 2.4 GHz 動作の SPARC 64 VI ，2006年には 4 CPU コア 
で 5 GHz 以上の動作の SPARC 64 1を出す予定である.こ 
れは， Sun のロードマップとほぼ一致している.ただ，技 
術的には， Sun よりも富士通のほうがやや進んでいると思 
われる. 

2003年10月22日付けの日経新聞に富士通と Sun がハイ 
エンド UNIX サーバの開発に関して協力し，将来的には事 
業統合も視野に入れているというニュースが一面に掲載さ 
れた.両者とも否定のコメントを出しているが，富士通も 
Sun も赤字続きであり，事業統合は当然の流れであろう. 

2003年10月の Microprocessor Forum でも ， Sun と富士 
通はなぜ別々に SPARC チップを開発しているのかという 
質問があったそうだ.それに対する Sun の回答は ， 「Intel 
と AMD に合併しろというようなもの」だとはぐらかした 
という. 

2004年2月11日， Sun は UltraSPARC V へのつなぎとし 
て，従来はチップの外にあった， L 2 キャッシュを同ーシリ 
コン上に集積した UltraSPARC IV + (コードネーム Panther ) 
を発表した . UltraSPARC IV +の性能は UltraSPARC IV の 
2倍になる見込みだ. 

• スループットコンピューティングと Niagara 

2003年2月， Sun は UltraSPARC のロー ドマップを再度 
強調した.これは， Sun が Intel に敗退するというアナリス 
卜の予想を牽制する意味がある.発表の中心は UltraSPARC 
IV だったが，コードネームが Gemini と呼ばれる低電力版 
UltraSPARC IV を搭載した口ーエンドサーバを2004年に出 
荷するとした， 

さらに ， Afara Websystems の買収で獲得した「スルー 
プットコンピューティング技術」を採用する Niagara (コー 
ドネーム）が 90 nm プロセスで2005年に登場するというこ 
とにも言及した.これは UltraSPARC II 相当の4スレッド 
间時実行するマルチスレッドプロセッサを8個搭載する32 
ウェイプロセッサである.アナリストは ， UltraSPARC VI 
で UltraSPARC 路線とスループットコンピューティングが 
統合され ， UltraSPARC IV や UltraSPARC V は Sun の歴史 
の中で脚注（特に言及する価値のないプロセッサというこ 
とか）に過ぎなくなると見ている. 
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2003年 8 月の HotChips シンポジウムでは， Gemini こそ 
がスループットコンピューテイングの第一弾であることが 
公表された. Gemini (双子）の名称の通り，2個の Ultra 
SPARC II と: IM バイトの L 2 キャッシュを1チップに集積 
したチップである.チップは UltraSPARC ID i と端子互換 
になっており ， UltraSPARC DU のブラットホームに差し 
込んで既に動作しているという話である. 130 nm プロセス 
で製造され，動作周波数は 0.9 〜 1.2 GHz であるという•し 
かし，これは当初言っていた UltraSPARC W そのものでは 
ないのだろうか.そうでないとしても ， UltraSPARC W と 
の違いは ， CPU コアが UltraSPARC II か UltraSPARC ID か 
ということになる.それが低電力版たるゆえんなのだろう 
か.ともかく，予定より早く UltraSPARC とスルーブット 
コンピューテイングの統合が始まっていると考えられる. 
Niagara は UltraSPARC V として登場してくるのだろうか. 

Sun は2月11日に Afara Websystems で買収した技術と 
Java アクセラレータの MAJC の技術を融合した Rock とい 
うプロセッサを開発す ると 発表した.ただし，性能が 1.2 
GHz の UltraSPARC HI の30倍になること以外，詳細は不 
明である.これが Niagara だろうか. 

• Am 29000 

AMD (Advanced Micro Devices ) は，今や Intel の最大 
のライバルである x 86 互換機メーカーである.しかし，昔 
は Intel の8080 A ， 8086，80386や Zilog の Z 8000のセカン 
ド ソースを 製造する会社というイメージがあり， オリ ジナ 
ルな MPU には注力してなかった. 

唯一，1978年に発表されたビットスライス型の Am 2901 
ファミリがあった程度である.これらはコンピュータや専 
用制御回路を作成するための LSI 群だった.たとえば ， Am 
2901は4ビット ALU やレジスタを含む LSI であり，8ビッ 
トプロセッサでは2個，16ビットプロセッサでは4個を組 
み合わせて使用する. 

その AMD が，1987年に突如，オリジナルな1チップ 
RISC 型 MPU を発表した.それが，バークレー RISC の流 
れを受け継ぐ Am 29000である.これは，同じバークレー 
RISC の流れを継ぐ SPARC と同時期である. CISC で言え 
ば， Intel の80386や Motorola の68030と同世代である. 

Am 29000の特徴は，192個という大量の32ビット汎用 
レジスタである.これが， SPARC と同様のレジスタウイ 
ンドウ方式で使用され，64本が グローバル レジスタ，残り 
がスタック キャッシュ となる （ SPARC の グローバルレ ジス 
夕は8本).命令体系は3オペランド形式で，分岐遅延スロ 
ットをもつ.この時期の RISC と同様に乘除算命令はもっ 
ていないが，乗除算処理の1ステップ分を実行する命令が 


用意されている.これも SPARC とよく似ている • Am 
29000は4ステージパイプラインのスーパースカラ構造を 
採る.また，浮動小数点演算を行うためにはコプロセッサ 
の Am 29027が必要である. 

Am 29000の命令セットの特徴は，この時期の RISC には 
珍しく， CISC と同様なビット操作命令とビットフィール 
ド命令をもつことだ.そのためか，初期の PostScript 対応 
プリンタで大量に使われている.また， Macintoshnfx 発 
表時には ， Apple Display Card 8 - 24 GC に採用され，「本 
体より高速な CPU によるアクセラレータ付きのカード」 
として話題になった. Am 29000は 22 MIPS (30 MIPS という 
発表もある）の性能 (30 MHz 動作）であり， Macintosh 本体 
の MPU である MC 68030 の 12 MIPS を遥かに凌いでいたか 
らである. 

Am 29000は， EWS というよりも組み込み制御向けに使 
われたので，同時期の RISC 系 MPU の中では出荷数が多い. 
しかし組み込み分野で，徐々に MIPS や SPARC 系の MPU 
に押され始めた Am 29000は，1995年，突如「終了宣言」 
が出された.登場も突然だったが，終焉も突然だった.以 
後， AMD は Am 29000の技術を応用して K 5 を開発し，より 
利益の見込める x 86 互換ビジネスに注力するようになる. 

• Transputer 

かつて一世を風靡した Transputer は，英国 INM 0 S 社が 
設計した，マルチプロセッサシステムの構築を容易にする 
MPU である. INMOSS , 1978年に英国の国策会社として 
設立された.設立初期は RAM を開発していたが，1980年 
に最初の丁 ransputer を開発した. Transputer は ， Transi 
ster と Computer を併せた造語である. INM 0 S は1984年 
に民営化されている.1987年には SGS-Thomson Micro 
electronics (現在の S 丁 Microelectronics ) に買収されている. 

INMOSS ， 1978年にオックスフォード大学の Charles 
Antony Hoare 博士によって提唱された Communicating 
Sequential Processes ( CSP ) 理論に基づいて， Occam という 
コンピュータ言語を開発した. Transputer は，この Occam 
のプログラムを実行させるために開発され，その後の並列 
コンピュータの実用化に多大な影響を与えた. 

Transputer は単純さを第一として開発された.たとえ 
ば，レジスタは3個しかなく（この他に， FPU に3個，命 
令ポインタ，ワークスペースポインタ，オペランドレジス 
夕の計9本がある），命令セットも単純である.内部的に 
はスタックアークテクチヤに基づいた RISC である. 

Transputer は最大4チヤネルの双方向シリアルリンクを 
もち，これを他の Transputer のシリアルリンクと上下左 
右に結合することで，並列的なネットワークシステムを構 
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築できる.ネットワーク形態には，相互通信，パイプライ 
ン，ツリー，2次元格子，ハイパーキューブなどがある. 
このシリアルリンクとチップ内のメモリは DMA で通信さ 
れる. 

丁 ransputer の最上位版である丁9000は1991年に発表さ 
れた. T 9000は，最高 50 MHz で動作し，8命令を同時実行 
する スーパー スカラである.一説によると，この T 9000の 
開発がうまくいかなかったため， Transputer のラインが 
途絶えてしまったという. 

Transputer 自体は簡単に並列システムが構成されるた 
めに，大学などの研究機関で多用されていた.しかし，通 
常の MPU でマルチプロセッサ構成が常識になっている現 
在では，その存在を知る人も少ない. 

# CRISP/Hobbit 

CRISC(Complex RISC ) という言葉がある.これは CISC 
命令セットを RISC アーキテクチャで実行する Pentium な 
どに与えられた名称である.しかし，それと同様な試みは 
RISC の創世紀から存在した.時期的には80286から80386, 
あるいは MC 68020の時代である.その中でも特に有名な 
のが， CRISP / Hobbit と CUPPER である.これらについて 
簡単に説明する. 

AT&T Microelectronics の Hobbit ( ATT 9201 0) は，1975 
年に始まったベル研究所の C 言語マシン計画に基づく 
MPU である . C 言語に最適化された CRISP ( C-machine 
Reduced Instruction Set Processor ) というアーキテクチャ 
を採用する. CRISP はバークレー RISC や Crusoe で有名な 
David R . Ditzel らによって開発された. CRISP 自体は 
CRISP プロセッサとしていくつもの論文が発表されている. 

C 言語はスタックを多用する言語なので， CRISP はスタ 
ックを基準としたメモリとメモリの演算に最適化されてい 
る.いわゆるスタックマシンで， ユーザーから 見えるレジ 
スタは存在ない.その代わり32エントリのスタックキャ 
ッシュを備える.スタックマシンは数式の処理を簡略化で 
き， C 言語を簡単に実装できる. 

また，命令プリフェッチ&デコードユニットと RISC ラ 
イクな実行ユニットがパイブラインで動作し，大抵のメモ 
リ演算を1クロックで処理できる.命令は16ビット可変長 
で VAX -11/780 並みのコード効率を誇る.これにより，16 
MHz の Hobbit の性能は VAX の約13倍 ， MIPS R 2000の約 
1.2 倍の性能を実現した.当時としては非常に高性能の部 
類に入る.また，当時の MPU が 5 V 動作だったのに対して 
Hobbit は 3.3 V 動作品もあり，低消費電力をも実現してい 
た. AT & T は CMOS 3.3 V 動作を特に強調し， MIPS/Watt 
という，現在では PDA の性能を示すのに多用される単位 


を初めて使用したとされる. 

Hobbit ( CRISP ) は，分類的には CISC であるが，アーキ 
テクチャが非常に単純化され，分岐の最適化など非常にエ 
レガントな特徴も有する.これをもって， AT & T は Hobbit 
を RISC と呼んでいた.1993年， ARM を採用する Apple 
社の Newton 対抗として， E 0 社の Personal Communi 
cator という電話機一体型べンコンピュータに採用された. 

Hobbit のロードマップとしては，1993年に 25 MHz の 
ATT 92020，1994年に 30 MHz の ATT 92030，1995年に 
40 MHz の ATT 92040が発表されていた（いずれも 3.3 V 動 
作時). 

Hobbit は NEC がセカンドソースをするという話があり 
一躍有名になったが， ATT 92020以降が出荷されたという 
話は聞かない. 

• CUPPER 

CLIPPER C 100 は1986年に Fairchild 社によって開発され 
た.その中心人物はスーパーコンピュータで有名な Cray 
Research 社の Haward Zax らである.基本的には UNIX エ 
ンジンを目指し，その上での CAD / CAE を効率的に処理 
することを目的としている.後年 ， EWS メーカーの Inter 
graph が開発を引き継ぎ，1988年に上位機種の C 300 が開発 
された. 

C 100 は Motorola の88000と同様に3チップで構成される. 
つまり， CPU , 命令キャッシュ（命令 TLB 込み），データキ 
ャツシュ（データ TLB 込み）からなる. 88000や PA-RISC 
は汎用の32本のレジスタをもっていたが， C 100 は16本の 
ユーザー（整数）レジスタと8本の浮動小数点レジスタをも 
つ.命令長は16ビット，32ビット，48ビットの3種があ 
る.基本的には口ード/ストアアーキテクチャの RISC であ 
るが，直接アドレスも指定できる.コード効率は VAX -11/ 
780の約1割増しである.これは CISC のコード効率に近い 
(非常に良い). 

また ， CLIPPER はスーパーバイザモードに 移行す ると， 
ユーザー レジスタがすべて16本のスーバーバイザレジス 
夕に 切り替わる (ARM のレジスタバンクは FIRQ 割り込み 
で ユーザーレジスタの 半分が スーパーバイザレジスタに 切 
り 替わる〉 のが 特徴的で ある. 

C 100 の性能は VAX -11/780 の約5倍であり，場合によっ 
ては VAX 8000よりも高速という. C 300 の性能は C 100 の2 
倍である.性能的には頑張っているほうか. 

CLIPPER の開発当時のロー ドマップは，1987年に動作 
クロックを 33 MHz から 40 MHz へ向上し，その後に10 
MIPS の CLIPPER II を開発するとなっていた.しかし， 
1986年10月に Fairchild 社は富士通に買収された.富士通 


345 











は当時 TRON チップを開発していたので CLIPPER の開発 
は Intergraph 社が引き継いだ. Intergraph 社は CLIPPER 
II ともいえる C 300 を世に送り出したが，その後が続いて 
いない. 

CRISP / Hobbit にしろ CLIPPER にしろ，比較的高性能を 
実現したが，現在では歴史の中に埋もれている.やはりそ 
のアーキテクチャを支える企業の体力が Intel や Motorola , 
RISC の四強 ( SPARC ， POWER , MIPS , PA - RISC ) に劣っ 
ていたのが敗因か. 

• 6Qx から G4 までの PowerPC 

PowerPC とは， IBM が大型計算機用に設計した POWER 
(Performance Optimized With Enhanced RISC ) アーキ テ 
クチャを 1 チップで 実現するものである.本来は IBM の 
EWS である RISC System /6000( RS /6000) の アーキ テクチ 
ャを基にしている. RS / 6000は科学計算を前提として設計 
されたが， PowerPC は ノート PC ， 組み込み コントローラ， 
高性能科学計算用および GWS (Graphics Work Station ) , 
マルチプロセッサ 構成の メインフレームな どに対象を拡 
げた. 

RS /6000 は7〜9の複数チップから構成されたが ， Power 
PC では1チップの実装に適するように命令の削除，追加 
が行われている.特に使用頻度が低く， IPC を上げにくい 
命令は削除または簡潔化されている.追加命令は整数や浮 
動小数点の演算系に多い. 

PowerPC は発表当時， RISC の中でも豊富な命令を備え 
た 「Rich RISC 」 と呼ばれ，（今ではありふれているが)積 
和命令やレジスタ値に依存した分岐命令， OS 専用命令が 
注目を浴びた.後々高性能化の妨げになるので遅延分岐は 
採用しないといったのは有名である. 

1991年7月に Apple , IBM , Motorola が PowerPC に関 
して提携し， IBM と Motorola が製造する MPU を IBM や 
Apple が自社の PC に採用することを決めた. IBM と 
Apple は， Intel と Microsoft の寡占状態にある PC 分野にお 
いて，新しい PC だけでなく情報機器の世界標準を作ろう 
と画策して， Motorola を巻き込んだ形で提携を成立させた. 
Apple , IBM , Motorola の連合は各社の頭文字を取って 
AIM 連合(後には PowerPC 連合）と呼ばれるようになった. 
AIM 連合の成立から約1年後，1992年の6月にはテキサス 
州のオースチンに Somerset という研究所が設立されて本 
格的な開発が始まった.その名称の由来はアーサー王の宮 
殿のあった場所であり， AIM の各社を円卓の騎士になぞ 
らえたのではないかと思われる.事実， PowerPC 750( コー 
ドネーム Arthur ) の発表時が Somerset の最盛期だった. 

1992年12月， IBM はすでに最初の PowerPC アーキテク 


チヤの MPU として， PowerPC 601 を開発していた . Somer 
set の最初の仕事は PowerPC 601 のシュリンク版の開発で 
ある.それは1994年に登場した. IBM の公式資料によれ 
ば，まず， POWER を1チップ化した RSC という MPU が 
あり，それを基に PowerPC 601 が開発されたとある.この 
あたりの事情は不透明で ある. その後， IBM と Motorola 
は， PowerPC 601 に引き続いて，第2世代 ( G 2) の PowerPC 
603/604/620をを開発することになる.さらに第3世代 ( G 3) 
の PowerPC 740/750 を開発することを表明した. 

PowerPC 604 までは32ビットモードのみをサボートす 
る. PowerPC 604 を基にして64ビットモードをサポートす 
る PowerPC 620 が1994年に発表された.しかし，製品と 
しては登場していない.これは欠点を補って後述の 
Power 3 となりサーバ向けに使用された. 

当初， Somerset での製品開発は非常に順調にいってい 
るように見えた. PowerPC 連合は次期 PC の標準仕様とし 
て PRep (PowerPC Reference Platform ) や CHRP (Common 
Hardware Reference Platform ) という規格を制定して， 
PowerPC の市場への浸透を図った.1996年には PC 向けに 
PowerPC 603 e と PowerPC 604 e (604 の1次キヤッシュ倍増 
版）が発表され， Macintosh の68000系から PowerPC への 
完全移行も発表された.そして，1997年に開発コードネー 
ム Arthur と呼ばれていた PowerPC 750( G 3) が登場すると， 
Macintosh も PowerPC 603/604 から PowerPC 750 に移行し 

ていった. 

しかし， PowerPC 連合の蜜月時代は長くは続かなかっ 
た. Apple が IBM の意向を無視して PowerPC を Apple 
( Macintosh ) に特化しすぎたため， IBM は Motorola との共 
同開発から撤退してそれぞれ独自の PowerPC 路線を構築 
することになる.具体的には，性能向上のための AltiVec 
の仕様をめぐる意見の対立が原因といわれている.また， 
Microsoft が WindowsNT での PowerPC のサポートを途中 
で放棄したことも一因であろう. 

その後 Apple と] Motorola は，1999年8月に，第4世代に 
相当する PowerPC G 4( MPC 740 0) を発表した.これは 
PowerPC 740/750 に，結局は Motorola が開発した，マルチ 
メディア用 SIMD 命令である AltiVec を実装した製品であ 
る • G 3， G 4 は Motorola が開発した PowerPC 603 をコアと 
した派生品であり，どれも最大2命令 （ + AltiVec ) 同時発行， 
最大3命令同時実行の スーパースカ ラと いう ことになって 
いる. 

• Powe 「 4 と PowePC970 

IBM には PowerPC とは別のロードマップにサーバ向け 
のラインアップとして， Power 1, Power 2, Power 3 があ 
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る.これらは PowerPC を，より性能が出るように ， SMP 
(Symmetric Multi-processor System ) 対応に改造したもの 
である （ Power 1は PowerPC 601 と同一という話もあるが). 
IBM の大型計算機である RS / 6000シリーズの開発 
チームに よって独自に開発された.しかし，これらの チッ 
プとそれを搭載したサーバは，動作周波数が他社に比べて 
劣るため，市場でのシェアを徐々に失っていった. 

Power 4 はそのような状況を打破するために開発された. 
Power 4 は，命令セット以外は，それ以前の Power チップ 
とは別物である.高速クロック技術は 637 MHz を実現した 
PowerPC の開発チームが担当した.高速バス技術，バッ 
ケージ技術も，それぞれ IBM 内の専門家チームが担当し 
た.システム設計は RS / 6000チームが担当した. CPU コ 
アは Power 3 の技術者と Somerset の残留組が担当した.こ 
のように，その時点での IBM がもてる最高技術を注ぎ込 
んで開発されたのだ. 

Power 4 の特徴の一つは低消費電力であることである. 
従来，サーバに使用される MPU は性能が第一で消費電力 
は二の次になっていた.しかし，電力削減のため Power 4 
では，チップ内部の使用中でない部分をオフにし，必要な 
時には即座にオンにできる特殊な回路を採用した.組み込 
み系 MPU でしばしば採用されるマスククロックの考え方 
だ. IBM は自社の前世代のチップ (450 MHz の Power 3) ， 
およびほかの UNIX 市場のライバル製品との比較で，半分 
程度しか電力を使わないと主張している. 

なお， Power 4 の予想消費電力は ISSCC 2001 で 1.5 V 駆動 
時に 115 W (1.1 GHz ) と発表されている.各 CPU コアは 30 W 
の消費電力だそうだ.当時の PowerPC の最新版である 
PowerPC 750 CXe の消費電力が 6.0 W (600 MHz ) であること 
を考えると，さすがにサーバ向けという感じである（電力 
使いまくり）.ちなみに，競合他社の CPU の消費電力は60 
W 程度(約2倍)である. CPU を2個使っているので 60 W と 
なり，他社並みという意見は置いておく. 

そして， Power 4 が低消費電力だったため，その技術は 
PowerPC にも流用されるようになる. 2001年の Micro 
processor Forum では， Power 4 の低電力技術を応用した 
携带機器用 MPU である PowerPC 405 LP が発表された. 1.0 
V 駆動， 150 MHz 動作で 200 MIPS 以上， 50 mW というから， 
単位電力当たりの性能では Intel の XScale を上回る.なお， 
380 MHz 動作では 1.8 V 駆動で 500 MIPS 以上， 500 mW の性 
能という. 

また，同じ Microprocessor Forum で， IBM は将来的に 
1 GHz 動作が可能な PowerPC 750 FX (コードネーム Sahara ) 
を発表した. PowerPC 750 CXe の高速版で，最初は750 


MHz での出荷となる.これも Power 4 の技術を流用したも 
のと考えられる. 

Power 4 に関していえば，2002年秋に Power 4 を基にし 
て AltiVec と同様なベクタ命令を内蔵した64ビット Power 
PC を発表するという噂が2002年夏頃から出ていた.この 
新 PowerPC は， Power 4 の DNA を引き継ぐチップになる 
という.その意味するところは高性能であり，2002年末ま 
でには 2 GHz を達成する見込みとか.また，そのべクタ命 
令は VMX と呼ばれ （ Vector/SIMD Multimedia Exten 
sions ),162 種をサポートする.しかも， AltiVec とは高い 
互換性があるらしい.これを以って，この新 PowerPC が 
Macintosh に採用されるのではという憶測もあわせて飛ん 
でいた（事実，そうなった）. 

そして2002年10月14日 ， Microprocessor Forum に先 
立ち， Power 4 を基にした PowerPC である PowerPC 970 が 
正式に発表された. 1.8 GHz で動作し，32ビットだけでな 
く 64ビットアブリケーシヨンでの実行も可能である.さ 
らに SMP をサボートする. Power 4 との最大の違いは CPU 
コアを一つしか内蔵しないこと， CPU コアの動作周波数が 
1.8 GHz に引き上げられたことである （ Power 4 は 1.3 GHz ). 
ベクタ命令に関しては，プレスリリースでは，単に SIMD 
命令をサボートするとなっている. 

また2003年6月23日， Apple は PowerMac G 5 を世界最 
高速で世界初の64ビット PC として発表した，プレスリ 
リースによれば ， CPU (PowerPC G 5) は Apple と IBM の共 
同開発となっているので， PowerPC 970 と考えて間違いな 
い. G 4 の AltiVec を巡って一度は袂を分けた Apple と IBM 
だが，なかなかクロックの上がらない Motorola の G 4 にし 
びれを切らせた Apple が， IBM とよりを戻したといったと 
ころか. 

• Motorola の PowerPC 

一方， Motorola の PowerPC 戦略はどうだろう. 2000年 
時点での口ー ドマップには第4世代の MPC 74 xx ( G 4) に続 
いて MPC 85 xx ( G 5) ， MPC 86 xx ( G 6) が掲載されている. 
型番が7000番代から8000番代に変わっているのはコアの 
変更を意味する.つまり， 603 e から Book E アーキテクチ 
ャを実装する e 500 に変更される. G 5 の動作周波数は800 
MHz から 2 GHz 以上を目標とし， SMP 対応を行う. G 6 に 
関してはすべてが未定である . PowerPC G 5 は Macintosh 
に搭載される予定で，2003年早々に発表されるはずだった 
が，その名称は IBM に奪われてしまった.現在では G 5 と 
いう看板は降ろしている. 

なお ， Book E とは， Motorola と IBM が共同で開発した 
アーキテクチャで，組み込み制御分野において Motorola 
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と IBM の製品に互換性をもたせる目的がある.これは 
PowerPC アーキテクチャの拡張機能である. 

2001年の Microprocessor Forum で Motorola も 1 GHz 動 
作の PowerPC である MPC 8540( e 500 コアの最初の製品）を 
発表した. e 500 コア，2561(バイトの L 2 キャッシュ， PCI - 
X コントローラ， DDR - SDRAM コントローラ ， Ethernet 
コントロー ラ， Motorola の提唱する Rapidl / O などを内蔵 
する.性能は 2325 MIPS ， 消費電力は 6.5 W である.その前 
哨戦としてか，1月28日， Apple が PowerMac G 4 に採用 
した MPC 7455( PowerPC 7455, コードネーム Apollo ) では 
1 GHz 動作を達成した. 32 K バイト +32 K バイトの L 1 キャ 
ッシュと 256 K バイトの L 2 キャッシュを内蔵し， 2 M バイ 
卜までの L 3 キャッシュをサポートする.このほかに， 
SMP 対応やキャッシュロックなど，ネットワーク応用分 
野への新機能が加わった点を除けば，従来の MPC 7450 と 
変わりない.ただ ， SOI (Silicon On Insulator ) 技術で消費 
電力を抑えている.さらに， Motorola は MPC 7455 と同時 
に 800 MHz 動作で低消費電力を特徴とする MPC 7445 も発 
表している.これは MPC 7455 と同じ CPU コアであるが， 
組み込み制御分野をねらう廉価版であり， L 3 キャッシュ 
のサポートがない.当初 MPC 8540 で達成する予定だった 
1 GHz 動作はすでに達成したことになる.技術の進歩は速 
い. MPC 8540 ではバス速度の改善がメインになると思わ 
れる. Motorola は MPC 7455 で， PowerPC 分野での IBM 
に対する優位性をアピールしている.しかし，動作周波数 
に関していえば， IBM に一歩遅れをとっている. 

PowerPC G 4 は低価格版 Macintosh の] VIPU として現役 
を維持しているが，その主流は IBM の PowerPC G 5 に移 
りつつある.最近の Motorola は，自社の強みである通信 
やネットワーク分野に PowerPC を売り込む方針に転換し 
たように見える. 

• PA-RISC 

PA - RISC(Precision Architecture RISC ) とは HP 社の 
EWS である HP 9000シリーズのアーキテクチャであり， 
EWS の分野ではかなりの実績をもつ.それでいて，ビッ 
卜操作命令，ビットフィールド命令，独自機能をサポート 
する SFU (Special Function Unit ) を有し，組み込み制御分 
野にも適している.事実，1991年に発表された HD 69010 
( PA /10) は EWS だけでなく組み込み分野への応用も見込 
んでいた. 

PA - RISC のアーキテクチャは HP と契約を結んだメー 
カーにしか公表されていないので詳細は長らく不明だった 
(現在は，その概要を HP のサイトで知ることができる）. 
ただ，初期の PA - RISC ではメモリアクセスを非常に高速 


にし，その代わり L 2 キャッシュを使用しないことを公言 
していた.メモリアクセスが十分高速なら容量に制限のあ 
る L 2 キャッシュは意味がないというわけである•この思 
想が現在も生きているか否かは不明だが，メモリアクセス 
を高速化したければ， DRAM でなく（高価でも） SRAM を 
使えという主張は核心を突いているかもしれない. 

1998年に発表された PA -8500 では巨大な4ウェイの L 1 
キャッシュ（命令 0.5 M バイト，データ 1 M バイト）を内蔵し 
ている. 2001年に発表された PA - 8700に至っては，命令 
0.75 M バイト，データ 1.5 M バイトと超巨大な L 1 キャッシ 
ュを内蔵する.これはチップ面積の3/4以上を占め ， MPU 
ではなく SRAM チップと揶揄する声もあるらしい.ただ 
し，あいかわらず， L 2 キャッシュはサポートしていない. 
P A -8700 は 800 MHz 以上で動作する. 

HP 自体は EWS 用の MPU を Intel の IA -64 に移行するこ 
とを表明しているので， PA - RISC が幻のアーキテクチャの 
まま終わってしまう可能性は大きい.とはいえ， IA -64 の開 
発遅れに危機感をもっているのは HP も同様らしい. 2000 
年に発表されたロー ドマップでは，2001年に 800 MHz 動作 
の PA - 8700，2002年に 1 GHz 動作の PA - 8800，そして将来 
的に 1.2 GHz 動作の PA - 8900の開発を行うことが明示され 
ている. PA - 8900以降は完全に IA -64 に移行する予定であ 
るが，これは Itanium , Mckiniey に続く第3世代である 
Deerfield や Madison のあとになっている. 

2004年2月9日， HP は PA -8800 を搭載したサーバを発表 
した. PA -8800 は PA - 8700を1チップに2個搭載する CMP 
である.当初予定よりは2年の遅れである.同時に 
Deerfield を2個搭載したサーバも発表した.これは PA - 
RISC から Itanium 2 への移行が予想通り進んでいることを 
示すものである.ただ，業界筋では PA - 8800はキャンセル 
されるという予想が大勢だったが，それでも製造に漕ぎ着 
けるとは大口契約など止められない理由があるのかもしれ 
ない.しかし， HP が Opteron を採用したり， Yamhill の発 
表で Itanium 2 自体の存在価値が危うくなってきている状 
況では，将来どうなるかわからない.とりあえずは PA - 
8900 を 開 発するのだろうか. 

HP は， PA - RISC から IA -64 への以降は非常に簡単だと 
言っている.なぜなら， IA -64 の命令セットのほとんどは 
PA - RISC のものであり，バイナリレベルの互換性があると 
いう.これに加えて，データの互換性（エンデイアンが同 
じということ ？） もあることが特筆すべきこととして挙げ 
られている， 

• Alpha 

Alpha は DEC の Alpha AXP というアーキテクチャに準 
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拠した RISC である. VAX のユーザーをより ハイエンドの 
EWS へと導くため，1989年の中頃からプロジェクトが始 
まった. DEC にとっては最初の RISC アーキテクチャでは 
なかったが，商業的に初めて成功したのが Alpha である. 
これは当初から64ビットアーキテクチャを提供し，64ビ 
ットの口ード/ストア命令を基本として命令セットが構築 
されている.命令長は32ビット固定で140種の命令がある. 
最初の Alpha 21064は 200MHz という，当時としては信じ 
られない高速動作を実現し，最高速の MPU としてギネス 
ブックに掲載された. 

Alpha は21064 (200MHz) に始まり，バイトとワードの 
データ 型をサポートして動作周波数を向上（最大 600MHz) 
させた21164，新たにモー シヨ ンビデオ 命令 (MVI) を追加 
してさらに動作周波数を向上 （700MHz 以上）させた21264 
がこれまでに開発された.この間，「ほとんど誰も欲しが 
らない最先端技術」の典型と揶揄されながらも，25年のラ 
イフサイクルを想定していたらしい.1999年には量産チッ 
プとして初めて 1GHz 動作を達成した.そして，今後も 
21364，21464と続いていく予定だった.当初予定では， 
21364が2000年，21464が2001年に登場する予定だったが， 
開発は順調に遅れてしまったようである. 

なお， Alpha AXP アーキテクチャは CPU コアによって 
区別される.それは EV(Electro Vlassic) の名称で呼ばれ 
る.その数値は DEC( 後期には IBM) の半導体製造プロセス 
を表している.具体的には，21064 /150MHz が EV4, 21064/ 
200MHz が EV4S(S はシュリンクを示す），21064 A が EV45, 
21164が EV5, 21164 A が EV56, 21264 /600MHz が EV6, 
21264 A/700MHZ が EV67(0.25 ^ m ) , 21264 B/IGI-Iz が EV6 
8(0.18 "m)，21364/1.2GHz^'EV7(0.18 //m) と nf は、れて 

いる. 

余談ではあるが， AMD が Athlon のバス仕様として 
Alpha EV6 の仕様を採用して Intel と差別化を図ったのは 
有名である. 

1998年， Compaq は DEC を買収して Alpha アーキテク 


チャを手に入れた. Compaq は x86 チップの大口顧客とし 
て有名だが， Alpha チップは EWS 用である.それまで 
MIPS 社の MPU を使用していた Tandem 向け EWS を 
21264で置き換える予定だったようだ. 

そして2001年6月25日， Compaq は Alpha 事業を Intel 
に譲り渡すと発表した. Inte 〖は Alpha の知的資産を獲得す 
ると共に， Itanium に対する直接的な脅威を消し去ること 
に成功した. Compaq は 「Alpha のエッセンスは Itanium 
の中で生き続ける」としているが， Alpha アーキテクチャ 
の事実上の消滅である.そして， Alpha の技術は6代目 （？） 
Itaium である Tukwila に採用されるという. 

また， Compaq は自社のサーバを Itanium に置き換える 
予定であるが， Alpha の最終版として EV67 と EV7( 開発 
コード Marvel) は開発するらしい.どちらも動作周波数は 
1GHz 以上という. EV7 のリリースは2003年の予定で，そ 
の間に Alpha の開発陣は順次 Inten こ移籍して Itanium の開 
発に携わっていくことになる.マルチスレッド対応が予定 
されていた EV8 の開発は中止された. 

まとめ 

ほかにもルネサステクノ ロジの SH シリーズや NEC の 
V800 シリーズや，さらにもう少しマイナー路線 （ ？ ） まで 
広げると，日本の半導体メーカー各社が何がしかの RISC 
系マイコンをもっているが，誌面が尽きたので残念だがこ 
こまでとする. 

Intel に端を発するマイクロプロセッサの歴史は，ほか 
のアーキテクチャとの攻防があったが，結局は Intel の一 
人勝ちの状況で進化が進んでいる.プログラムが C 言語で 
開発されるのが主流になった現在では，命令セットアーキ 
テクチャへの関心は薄くなっている. 

今後はプロセス技術の進化とともにマイクロプロセッサ 
も進化していく.その先駆者の一つは間違いなく Intel で 
あるが，それと双璧をなす IBM にも， RISC の火を消さな 
いで頑張ってもらいところだ. 
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あとがき——本書が産まれるまで 

本書の原稿を書き始めるきっかけは，コンピュータアーキテクチャ，具体的には MMU やキャッシュの構成などについて 
知っている人が思ったよりも少ないということを実感したことだった.会社の後輩から「2ウェイセットアソシアティブっ 
てなんですか?」とか「ガード，ラウンド，スティッキってなんですか?」と質問されたとき，最近の若い者はそんなことも 
知らないのかと思ってしまった.たしかに特殊な知識ではあるのだが， MPU を設計しようと思っている人には必須である. 
しかし，それを学ぶための書物が少ないのも現実である. 

コンピュータアーキテクチャの教科書としては， RISC の産みの親である Hennessy と Patterson が著した，いわゆる『へ 
ネパタ本』が有名である.この本でだいたいの知識は得ることができるが，高価なのが玉にきずである.もっと手軽に読め 
るものが欲しいと思う.とはいえ，巷にあふれているパソコン雑誌で，マイクロアーキテクチャの詳細について解説してあ 
るものは少ない.あったとしても Intel や AMD の新製品に関するアーキテクチャの解説なので，非常に偏っている. x 86 
アーキテクチャがすべてではないのだということを知ってもらうために本書を著した. 

個人的には， x 86 アーキテクチャは非常に複雑だと思う.アドレス変換やメモリ保護など，昔ながらのセグメント方式と 
矛盾がないように拡張しているので，理解が雛かしい.コンピュータアーキテクチャの基礎を x 86 で学ぼうというのは無謀 
である.やはり，シングルパイプライン構造の RISC から始めるのが王道であろう. 

ホ ホ 

本書は， Interface 本誌2003年の10月号と11月号の2号にわたり企画された特集の原稿をベースに，大幅に加筆修正して 
単行本化したものだ.実を言うとその特集の原稿そのものも，他社の雑誌に執筆し連載した記事をベースとしている.本来 
なら，最初に雑誌に掲載された後に単行本化される場合は，その雑誌と同じ出版社から出版されるのが普通であるが，いろ 
いろな事情から出版社が違う場合もある.いわゆる“大人の事情”というやつである. 

それゆえ，この原稿が本当に日の目を見るのか，本当に単行本化が決まるのか，筆者は神にも祈る気持ちで審判を待った. 
こうしてこの文章が読者に読まれているということは，待った甲斐があったというところか. 

本書には，筆者のコンピュータに対する知識の8割程度をつぎ込んでいる.筆者の知識そのものといってもいい.一冊の 
本にまとめてみれば，筆者の知識もこの程度のものかと気落ちしてしまうかもしれないが，本書は筆者の備忘録でもある. 
自己満足といわれれば，そうかもしれない.そんなものでも買ってくれる読者がいれば嬉しいと思う. 
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TECH I シリーズ 


好評発売中 


iVol. 131 力-ネル/デパイスドライ パ/ ボ-テイング/リアルタイム 

エンジニアリング Linux 応用技法 

B5 判 200 ぺ ージ 
CD-FI0M 付き 

定価2,200円 
ISBN4-7898-3324-0 

|Vol.12] 生産性，品質の向上を図るためのソフトウェア開発手法 

リアルタイムシステム実現のための自律オブジェ外指向 

岩橋正実著 
B5 判136ページ 
定価1,800円 
ISBN4-7898-3323-2 

Ivoi. n| インターネット，移動体通信に続く新しい情報インフラ 

ディジタル放送の基礎技術入門 

B5 判192ページ 
定価2,000円 
ISBN4-7898-3322-4 

|Vol.lO 組み込み機器でも重要になった外部記憶装置とのインターフェース規格 

ATA0DE)/ATAPI の徹底研究 

B5 判240ページ 
CD-ROM 付き 
定価2,200円 
ISBN4-7898-3321-6 

1 Vol. 9 | MATLA 巳による例題を使って身につける基礎から応用 

シミュレーシヨンで学ぶディジタル信号処理 

尾知博著 
B5 判164ページ 
定価2,000円 
ISBN4-7898-3320-8 

1 vol. 8 | USB コント□ーラの使い方から Windows/Linux ドライバの作成まで 

USB ノ ド&ソフト開発のすべて 

B5 判280ページ 
CD-ROM 付き 
定価2,200円 
ISBN4 -フ 898-3319-4 

LvoTt ] 情報通信と信号解析 一 暗号，誤り訂正符号，積分変換 

やり直しのための工業数学 

三谷政昭著 
B5 判216ページ 
定価2,200円 
ISBN4-7898-3318-6 

: Vol. 6 基本プ□トコル解説から IEEE1 394 機器の設計.ドライバ開発まで 

旧 EE 1394 の徹底研究 

B5 判200ページ 
CD-ROM 付き 
定価2,200円 
ISBN4-7898-3317-8 

1 vol. 5 | クロス開発手法/デバイスドライバ/ RT_Linux/OS の組み i 入み 

技術者のための UNIX 系 OS 入門 

B5 判224ページ 
CD-ROM 付き 
定価2,200円 
ISBN4-7898-3316-X 

1 Vol. 4 | インターネット/ディジタルテレビ/モバイル通信時代の必須技術 

画像&音声圧縮技術のすべて 

藤原洋監修 
B5 判228ページ 
定価2,200円 
ISBN4-7898-3315-1 

1 vol. 3 | PCI バスの原理から HDU こよる 1C 設計 & デバッグ手法まで 

PCI デバイス設計入門 

B5 判272ページ 
CD-ROM 付き 
定価2,200円 
ISBN4-7898-3314-3 

1 Vol. 2 1パソコンによるシミュレーションと DSP プログラミング 三上直樹著 

ディジタル信号処理と DSP 

( Vol.l SH-1/SH-2/SH-3/SH-4 のハード&ソフト完璧マスタ 

Super H プロセッサ 

B5 判216ページ 
CD-ROM 付き 
定価2,200円 
ISBN4-7898-3312-7 
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